Spaces:

tianyaogavin
/

faster-whisper-small

Running

App Files Files Community

tianyaogavin commited on May 7

Commit

87b8a8a

1 Parent(s): 1bf36cc

ct2 translator

Browse files

Files changed (4) hide show

Framework.md +62 -56
dataset/audio/metadata/test1_segments_20250506_141232.json +126 -0
translator/README.md +165 -0
translator/translator.py +64 -108

Framework.md CHANGED Viewed

@@ -1,71 +1,77 @@
-## 【伪流式音频转写 + LLM优化系统架构图】
-### 🌊 总体流程图
 ```mermaid
 graph TD
-    A[音频流输入] --> B[VAD]
-    B --> C[Transcribe]
-    C --> D[语义聚合控制器]
-    D --> E[即时输出模块]
-    D --> F[LLM 优化调度器]
-    F --> G[优化后回填模块]
-    G --> E
-    E --> H[翻译模块]
 ```
 ---
-### 🧱 模块划分（以伪流式为核心）
-#### **模块 A：音频流输入**
-- **职责**：接收用户麦克风或远程语音流（如 WebRTC, WebSocket），将连续音频切分为帧（如每帧 20ms）。
-- **特点**：持续运行的监听器，向下游推送 PCM 帧 / numpy array。
-- **实时性保障**：限帧缓冲长度（防止阻塞）；异步 IO（web/本地都适用）。
-#### **模块 B：VAD 分段器(vad)**
-- **职责**：根据能量、静音、说话边界等信号判断语音段落。
-- **输出**：segment 音频块 + 时间戳。
-- **特点**：滑动窗口方式收集帧，支持重叠帧（方便 whisper 特征提取）。
-- **实时性保障**：分段逻辑低延迟计算，每完成一个 segment 即可推送。
-#### **模块 C：Whisper 转录模块(transcribe)**
-- **职责**：对每段 VAD 输出进行 whisper 转写，输出文本 + 时间戳。
-- **特点**：segment 级别调用 whisper，天然可并行；可 GPU 推理加速。
-- **实时性保障**：控制 segment 长度在 1~5s，支持多个转录 worker 异步执行。
-#### **模块 D：语义聚合控制器**（⚠️核心控制器）
-- **职责**：维护 segment 缓冲池（N 个），判断 segment 是否“组成完整语义单元”，推送两个下游：
-  - 即时展示模块（原始或优化转写）
-  - fine-tune 队列（异步 LLM 优化）
-- **判断逻辑**：基于标点、停顿、时间间隔、小模型或规则判断。
-- **实时性保障**：设置最大延迟窗口，防止句子粘连。
-#### **模块 E：即时输出模块(display)**
-- **职责**：将聚合后的转写结果立即显示给用户，无论是原始还是优化后的内容。
-- **特点**：无等待、无依赖，低延迟输出，支持句子更新。
-- **实时性保障**：最短路径，展示为第一响应版本。
-#### **模块 F：LLM 优化调度器(optimizer)**
-- **职责**：接收待优化句子，加入优化任务队列。
-- **特点**：任务调度、并行执行、负载均衡；支持多模型、可控超时。
-- **实时性保障**：异步非阻塞，不影响主流程。
-#### **模块 G：优化后回填模块**
-- **职责**：对照原句编号，将 LLM 优化结果回填替换，并推送给即时输出模块。
-- **特点**：非强覆盖，可差分更新；UI 区分原始/优化版本。
-- **实时性保障**：回填异步进行，不干扰主字幕。
-#### **模块 H：翻译模块(translator)**
-- **职责**：接收所有来自即时输出模块的句子（原始或优化后），将其翻译为目标语言。
-- **特点**：单一翻译模块，适配不同质量文本；可以并行多语种或缓存优化后重译。
-- **实时性保障**：即转即译 + 回填更新可分离，支持伪流式体验。
 ---
 ### 🔧 模块功能说明
-（说明内容略，与上述保持一致，可在后续按需同步更新）

+# 【伪流式音频转写 + LLM优化系统架构图】
+## 🌊 总体流程图
 ```mermaid
 graph TD
+    A[音频流输入] --> B[VAD （20ms）]
+    B --> C[Transcribe（200ms）]
+    C --> D[快速翻译模块（200ms）]
+    D --> E[即时输出模块（非确认状态）]
+    C --> F[翻译确认模块（可选优化）]
+    F --> G[优化翻译模块（LLM或重转录）（500ms）]
+    G --> H[异步输出模块（确认状态）]
 ```
 ---
+## 🧱 模块划分（以伪流式为核心）
+### **模块 A：音频流输入**
+- **职责**：接收用户麦克风或远程语音流（如 WebRTC、WebSocket），将连续音频切分为帧（如每帧 20ms）。
+- **特点**：持续运行的监听器，向下游推送 PCM 帧或 numpy array。
+- **实时性保障**：限制帧缓冲长度（防止阻塞）；异步 IO 实现（支持本地或 Web 场景）。
+### **模块 B：VAD 分段器**
+- **职责**：根据语音能量、静音检测、语音边界等逻辑将音频切分成语音段（segment）。
+- **输出**：segment 音频数据块及时间戳。
+- **特点**：基于滑动窗口，支持帧重叠；优化 Whisper 特征提取。
+- **实时性保障**：极低延迟；segment 生成即推送下游模块。
+### **模块 C：Whisper 转录模块**
+- **职责**：对 VAD 输出的 segment 执行 Whisper 推理，生成转写文本。
+- **输出**：原始文本段落（含时间戳）。
+- **特点**：segment 单元并行处理；可通过 GPU 加速。
+- **实时性保障**：每段 1~5 秒，支持异步 worker 并行转写。
+### **模块 D：快速翻译模块**
+- **职责**：在转写完成后立即对文本进行机器翻译（如使用 CTranslate2+NLLB 模型）。
+- **输出**：翻译文本（第一时间展示用）。
+- **特点**：轻量翻译模块，适配实时性需求。
+- **实时性保障**：200ms 内完成翻译并传递至��示模块。
+### **模块 E：即时输出模块（非确认状态）**
+- **职责**：接收翻译结果，第一时间展示给用户。
+- **特点**：无等待、无确认，仅为初版输出。
+- **实时性保障**：面向用户 UI 的主响应路径，保证极低延迟。
+### **模块 F：翻译确认模块（控制器）**
+- **职责**：判断是否需要对当前句子进行 LLM 优化或更深层次的重转录。
+- **特点**：分析内容质量、标点情况或上下文完整度，触发优化流程。
+- **实时性保障**：判断延迟可控，不阻塞主流程。
+### **模块 G：优化翻译模块（LLM或重转录）**
+- **职责**：使用 LLM 或重新转写提升句子质量，适用于更复杂表达、用户配置优化等情景。
+- **特点**：异步执行，支持任务排队与超时处理；高质量输出。
+- **实时性保障**：不影响主路径，优化输出采用回填策略。
+### **模块 H：异步输出模块（确认状态）**
+- **职责**：将优化后的结果替换展示或做差分更新，供用户确认或查看。
+- **特点**：支持区分原始和优化版本的展示策略。
+- **实时性保障**：异步更新，不影响当前交互。
 ---
 ### 🔧 模块功能说明
+上述模块可单独部署为微服务，也可组合为本地流式推理程序，适配不同设备和场景需求。
+- Whisper 模块支持 CUDA / CPU 切换；
+- 翻译模块支持 NLLB 量化模型，响应时间控制在百毫秒级；
+- VAD 模块可基于 WebRTC VAD、Silero VAD 等方案替换。
+未来可拓展功能包括：
+- 多用户通话流识别（扬声器分离）；
+- 跨语种对话自动识别与应答生成；
+- 可控 LLM 插槽，用于个性化纠错 / 术语优化等场景。

dataset/audio/metadata/test1_segments_20250506_141232.json ADDED Viewed

	@@ -0,0 +1,126 @@

+{
+  "audio_file": "dataset/audio/test1.wav",
+  "timestamp": "20250506_141232",
+  "total_segments": 17,
+  "segments": [
+    {
+      "index": 0,
+      "start_time": 3.26,
+      "end_time": 3.92,
+      "duration": 0.6600000000000001,
+      "is_speech": true
+    },
+    {
+      "index": 1,
+      "start_time": 4.34,
+      "end_time": 5.56,
+      "duration": 1.2199999999999998,
+      "is_speech": true
+    },
+    {
+      "index": 2,
+      "start_time": 7.1,
+      "end_time": 7.8,
+      "duration": 0.7000000000000002,
+      "is_speech": true
+    },
+    {
+      "index": 3,
+      "start_time": 8.8,
+      "end_time": 12.44,
+      "duration": 3.639999999999999,
+      "is_speech": true
+    },
+    {
+      "index": 4,
+      "start_time": 12.8,
+      "end_time": 16.74,
+      "duration": 3.9399999999999977,
+      "is_speech": true
+    },
+    {
+      "index": 5,
+      "start_time": 17.32,
+      "end_time": 18.76,
+      "duration": 1.4400000000000013,
+      "is_speech": true
+    },
+    {
+      "index": 6,
+      "start_time": 19.76,
+      "end_time": 21.1,
+      "duration": 1.3399999999999999,
+      "is_speech": true
+    },
+    {
+      "index": 7,
+      "start_time": 21.62,
+      "end_time": 25.68,
+      "duration": 4.059999999999999,
+      "is_speech": true
+    },
+    {
+      "index": 8,
+      "start_time": 26.28,
+      "end_time": 28.2,
+      "duration": 1.9199999999999982,
+      "is_speech": true
+    },
+    {
+      "index": 9,
+      "start_time": 28.56,
+      "end_time": 31.6,
+      "duration": 3.0400000000000027,
+      "is_speech": true
+    },
+    {
+      "index": 10,
+      "start_time": 31.98,
+      "end_time": 33.2,
+      "duration": 1.2200000000000024,
+      "is_speech": true
+    },
+    {
+      "index": 11,
+      "start_time": 33.54,
+      "end_time": 36.52,
+      "duration": 2.980000000000004,
+      "is_speech": true
+    },
+    {
+      "index": 12,
+      "start_time": 37.82,
+      "end_time": 38.94,
+      "duration": 1.1199999999999974,
+      "is_speech": true
+    },
+    {
+      "index": 13,
+      "start_time": 39.34,
+      "end_time": 40.34,
+      "duration": 1.0,
+      "is_speech": true
+    },
+    {
+      "index": 14,
+      "start_time": 40.86,
+      "end_time": 42.4,
+      "duration": 1.5399999999999991,
+      "is_speech": true
+    },
+    {
+      "index": 15,
+      "start_time": 43.04,
+      "end_time": 46.6,
+      "duration": 3.5600000000000023,
+      "is_speech": true
+    },
+    {
+      "index": 16,
+      "start_time": 47.5,
+      "end_time": 49.8,
+      "duration": 2.299999999999997,
+      "is_speech": true
+    }
+  ]
+}

translator/README.md ADDED Viewed

	@@ -0,0 +1,165 @@

+# 测试结果
+```bash
+2025-05-07 20:23:02,565 - translator - DEBUG - 使用设备: cuda
+2025-05-07 20:23:04,366 - translator - INFO -
+==== 测试用例 1 ====
+2025-05-07 20:23:04,367 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,367 - translator - INFO - [翻译原文] 请问这附近有地铁站吗？
+2025-05-07 20:23:04,367 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,515 - translator - DEBUG - 输出分词: ['eng_Latn', '▁Please', '▁ask', ',', '▁is', '▁there', '▁a', '▁rail', 'way', '▁station', '▁near', 'by', '?']
+2025-05-07 20:23:04,516 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 146.86ms
+2025-05-07 20:23:04,516 - translator - INFO - [翻译结果] Please ask, is there a railway station nearby?
+2025-05-07 20:23:04,516 - translator - INFO - 最终翻译结果: Please ask, is there a railway station nearby?
+2025-05-07 20:23:04,516 - translator - INFO - 总耗时: 148.93ms
+2025-05-07 20:23:04,516 - translator - INFO -
+==== 测试用例 2 ====
+2025-05-07 20:23:04,517 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,517 - translator - INFO - [翻译原文] 我们今天要讨论人工智能的发展趋势。
+2025-05-07 20:23:04,517 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,628 - translator - DEBUG - 输出分词: ['eng_Latn', '▁We', '▁are', '▁going', '▁to', '▁discuss', '▁today', '▁the', '▁tr', 'ends', '▁in', '▁the', '▁development', '▁of', '▁artificial', '▁intelligence', '.']
+2025-05-07 20:23:04,628 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 111.20ms
+2025-05-07 20:23:04,628 - translator - INFO - [翻译结果] We are going to discuss today the trends in the development of artificial intelligence.
+2025-05-07 20:23:04,628 - translator - INFO - 最终翻译结果: We are going to discuss today the trends in the development of artificial intelligence.
+2025-05-07 20:23:04,628 - translator - INFO - 总耗时: 111.20ms
+2025-05-07 20:23:04,628 - translator - INFO -
+==== 测试用例 3 ====
+2025-05-07 20:23:04,628 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,628 - translator - INFO - [翻译原文] 他的回答令人非常失望。
+2025-05-07 20:23:04,628 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,684 - translator - DEBUG - 输出分词: ['eng_Latn', '▁His', '▁answer', '▁was', '▁very', '▁disappoint', 'ing', '.']
+2025-05-07 20:23:04,684 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 55.06ms
+2025-05-07 20:23:04,684 - translator - INFO - [翻译结果] His answer was very disappointing.
+2025-05-07 20:23:04,684 - translator - INFO - 最终翻译结果: His answer was very disappointing.
+2025-05-07 20:23:04,684 - translator - INFO - 总耗时: 56.07ms
+2025-05-07 20:23:04,684 - translator - INFO -
+==== 测试用例 4 ====
+2025-05-07 20:23:04,684 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,684 - translator - INFO - [翻译原文] 这个项目已经进行了三个月，还需要更多资源支持。
+2025-05-07 20:23:04,684 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,787 - translator - DEBUG - 输出分词: ['eng_Latn', '▁The', '▁project', '▁has', '▁been', '▁running', '▁for', '▁three', '▁months', '▁and', '▁requires', '▁more', '▁resources', '▁to', '▁support', '▁it', '.']
+2025-05-07 20:23:04,788 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 102.36ms
+2025-05-07 20:23:04,788 - translator - INFO - [翻译结果] The project has been running for three months and requires more resources to support it.
+2025-05-07 20:23:04,788 - translator - INFO - 最终翻译结果: The project has been running for three months and requires more resources to support it.
+2025-05-07 20:23:04,788 - translator - INFO - 总耗时: 104.35ms
+2025-05-07 20:23:04,788 - translator - INFO -
+==== 测试用例 5 ====
+2025-05-07 20:23:04,788 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,788 - translator - INFO - [翻译原文] 天气预报说明天会有暴雨，请大家注意安全。
+2025-05-07 20:23:04,788 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,898 - translator - DEBUG - 输出分词: ['eng_Latn', '▁Weather', '▁fore', 'cas', 'ts', '▁indicate', '▁that', '▁there', '▁will', '▁be', '▁heavy', '▁rain', ',', '▁please', '▁pay', '▁attention', '▁to', '▁safety', '.']
+2025-05-07 20:23:04,898 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 109.08ms
+2025-05-07 20:23:04,898 - translator - INFO - [翻译结果] Weather forecasts indicate that there will be heavy rain, please pay attention to safety.
+2025-05-07 20:23:04,899 - translator - INFO - 最终翻译结果: Weather forecasts indicate that there will be heavy rain, please pay attention to safety.
+2025-05-07 20:23:04,899 - translator - INFO - 总耗时: 110.14ms
+2025-05-07 20:23:04,899 - translator - INFO -
+==== 测试用例 6 ====
+2025-05-07 20:23:04,899 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,899 - translator - INFO - [翻译原文] 是时候重新思考我们的计划了。
+2025-05-07 20:23:04,899 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:04,976 - translator - DEBUG - 输出分词: ['eng_Latn', '▁It', "'", 's', '▁time', '▁to', '▁r', 'eth', 'ink', '▁our', '▁plans', '.']
+2025-05-07 20:23:04,976 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 77.24ms
+2025-05-07 20:23:04,976 - translator - INFO - [翻译结果] It's time to rethink our plans.
+2025-05-07 20:23:04,976 - translator - INFO - 最终翻译结果: It's time to rethink our plans.
+2025-05-07 20:23:04,976 - translator - INFO - 总耗时: 77.76ms
+2025-05-07 20:23:04,976 - translator - INFO -
+==== 测试用例 7 ====
+2025-05-07 20:23:04,976 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:04,977 - translator - INFO - [翻译原文] 我对这个结果非常满意，感谢你的努力。
+2025-05-07 20:23:04,977 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:05,076 - translator - DEBUG - 输出分词: ['eng_Latn', '▁I', "'", 'm', '▁very', '▁happy', '▁with', '▁this', '▁result', ',', '▁thank', '▁you', '▁for', '▁your', '▁efforts', '.']
+2025-05-07 20:23:05,076 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 98.25ms
+2025-05-07 20:23:05,076 - translator - INFO - [翻译结果] I'm very happy with this result, thank you for your efforts.
+2025-05-07 20:23:05,076 - translator - INFO - 最终翻译结果: I'm very happy with this result, thank you for your efforts.
+2025-05-07 20:23:05,076 - translator - INFO - 总耗时: 99.88ms
+2025-05-07 20:23:05,076 - translator - INFO -
+==== 测试用例 8 ====
+2025-05-07 20:23:05,076 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,077 - translator - INFO - [翻译原文] 她穿着一件红色的连衣裙，在人群中格外显眼。
+2025-05-07 20:23:05,077 - translator - DEBUG - 源语言: zho_Hans, 目标语言: eng_Latn
+2025-05-07 20:23:05,178 - translator - DEBUG - 输出分词: ['eng_Latn', '▁She', '▁we', 'ars', '▁a', '▁red', '▁dress', ',', '▁which', '▁is', '▁very', '▁prom', 'inent', '▁among', '▁the', '▁crowd', '.']
+2025-05-07 20:23:05,178 - translator - DEBUG - 翻译完成: zho_Hans -> eng_Latn, 耗时: 100.78ms
+2025-05-07 20:23:05,178 - translator - INFO - [翻译结果] She wears a red dress, which is very prominent among the crowd.
+2025-05-07 20:23:05,178 - translator - INFO - 最终翻译结果: She wears a red dress, which is very prominent among the crowd.
+2025-05-07 20:23:05,179 - translator - INFO - 总耗时: 102.00ms
+2025-05-07 20:23:05,179 - translator - INFO -
+==== 测试用例 9 ====
+2025-05-07 20:23:05,179 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,179 - translator - INFO - [翻译原文] Can you help me find the nearest bus station?
+2025-05-07 20:23:05,179 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,271 - translator - DEBUG - 输出分词: ['zho_Hans', '▁你', '能', '帮', '我', '找到', '最近', '的', '公 共', '汽', '车', '站', '吗', '?']
+2025-05-07 20:23:05,271 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 91.77ms
+2025-05-07 20:23:05,271 - translator - INFO - [翻译结果] 你能帮我找到最近的公共汽车站吗?
+2025-05-07 20:23:05,271 - translator - INFO - 最终翻译结果: 你能帮我找到最近的公共汽车站吗?
+2025-05-07 20:23:05,272 - translator - INFO - 总耗时: 91.77ms
+2025-05-07 20:23:05,272 - translator - INFO -
+==== 测试用例 10 ====
+2025-05-07 20:23:05,272 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,272 - translator - INFO - [翻译原文] The machine learning model achieved an accuracy of 95%.
+2025-05-07 20:23:05,272 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,368 - translator - DEBUG - 输出分词: ['zho_Hans', '▁', '机', '器', '学习', '模型', '达到', '9', '5%', '的', '准', '确', '性', '.']
+2025-05-07 20:23:05,368 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 95.58ms
+2025-05-07 20:23:05,369 - translator - INFO - [翻译结果] 机器学习模型达到95%的准确性.
+2025-05-07 20:23:05,369 - translator - INFO - 最终翻译结果: 机器学习模型达到95%的准确性.
+2025-05-07 20:23:05,369 - translator - INFO - 总耗时: 96.62ms
+2025-05-07 20:23:05,369 - translator - INFO -
+==== 测试用例 11 ====
+2025-05-07 20:23:05,370 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,370 - translator - INFO - [翻译原文] He was overwhelmed by the unexpected response from the audience.
+2025-05-07 20:23:05,370 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,471 - translator - DEBUG - 输出分词: ['zho_Hans', '▁他', '被', '观', '众', '的', '意', '想', '不', ' 到', '的', '反应', '压', '倒', '了', '.']
+2025-05-07 20:23:05,471 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 100.42ms
+2025-05-07 20:23:05,472 - translator - INFO - [翻译结果] 他被观众的意想不到的反应压倒了.
+2025-05-07 20:23:05,472 - translator - INFO - 最终翻译结果: 他被观众的意想不到的反应压倒了.
+2025-05-07 20:23:05,472 - translator - INFO - 总耗时: 102.39ms
+2025-05-07 20:23:05,472 - translator - INFO -
+==== 测试用例 12 ====
+2025-05-07 20:23:05,472 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,472 - translator - INFO - [翻译原文] It’s important to stay hydrated during hot summer days.
+2025-05-07 20:23:05,473 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,557 - translator - DEBUG - 输出分词: ['zho_Hans', '▁在', '炎', '热', '的', '夏', '天', '保持', '水', '分', '很', '重要', '.']
+2025-05-07 20:23:05,557 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 84.14ms
+2025-05-07 20:23:05,557 - translator - INFO - [翻译结果] 在炎热的夏天保持水分很重要.
+2025-05-07 20:23:05,557 - translator - INFO - 最终翻译结果: 在炎热的夏天保持水分很重要.
+2025-05-07 20:23:05,557 - translator - INFO - 总耗时: 85.14ms
+2025-05-07 20:23:05,557 - translator - INFO -
+==== 测试用例 13 ====
+2025-05-07 20:23:05,557 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,557 - translator - INFO - [翻译原文] Although she was tired, she continued working late into the night.
+2025-05-07 20:23:05,557 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,649 - translator - DEBUG - 输出分词: ['zho_Hans', '▁', '虽然', '她', '很', '累', ',', '但', '她', '继续', '工作', '直到', '深', '夜', '.']
+2025-05-07 20:23:05,650 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 92.03ms
+2025-05-07 20:23:05,650 - translator - INFO - [翻译结果] 虽然她很累,但她继续工作直到深夜.
+2025-05-07 20:23:05,650 - translator - INFO - 最终翻译结果: 虽然她很累,但她继续工作直到深夜.
+2025-05-07 20:23:05,650 - translator - INFO - 总耗时: 93.03ms
+2025-05-07 20:23:05,650 - translator - INFO -
+==== 测试用例 14 ====
+2025-05-07 20:23:05,650 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,650 - translator - INFO - [翻译原文] The concert was amazing, and the crowd was full of energy.
+2025-05-07 20:23:05,650 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,747 - translator - DEBUG - 输出分词: ['zho_Hans', '▁', '音乐', '会', '是', '惊', '人的', ',', '群', '众', '充', '满', '了', '能量', '.']
+2025-05-07 20:23:05,747 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 95.60ms
+2025-05-07 20:23:05,747 - translator - INFO - [翻译结果] 音乐会是惊人的,群众充满了能量.
+2025-05-07 20:23:05,748 - translator - INFO - 最终翻译结果: 音乐会是惊人的,群众充满了能量.
+2025-05-07 20:23:05,748 - translator - INFO - 总耗时: 97.54ms
+2025-05-07 20:23:05,748 - translator - INFO -
+==== 测试用例 15 ====
+2025-05-07 20:23:05,748 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,748 - translator - INFO - [翻译原文] Please make sure to submit your application before the deadline.
+2025-05-07 20:23:05,748 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,817 - translator - DEBUG - 输出分词: ['zho_Hans', '▁请', '确保', '在', '截', '止', '日', '期', '之前', '提交', '申请', '.']
+2025-05-07 20:23:05,817 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 69.40ms
+2025-05-07 20:23:05,817 - translator - INFO - [翻译结果] 请确保在截止日期之前提交申请.
+2025-05-07 20:23:05,817 - translator - INFO - 最终翻译结果: 请确保在截止日期之前提交申请.
+2025-05-07 20:23:05,817 - translator - INFO - 总耗时: 69.40ms
+2025-05-07 20:23:05,817 - translator - INFO -
+==== 测试用例 16 ====
+2025-05-07 20:23:05,817 - translator - DEBUG - 开始翻译
+2025-05-07 20:23:05,817 - translator - INFO - [翻译原文] After months of preparation, the product was finally launched.
+2025-05-07 20:23:05,817 - translator - DEBUG - 源语言: eng_Latn, 目标语言: zho_Hans
+2025-05-07 20:23:05,920 - translator - DEBUG - 输出分词: ['zho_Hans', '▁', '经', '过', '数', '月', '的', '准', '备', ',', '该', '产', '品', '最终', '推', '出', '.']
+2025-05-07 20:23:05,920 - translator - DEBUG - 翻译完成: eng_Latn -> zho_Hans, 耗时: 102.10ms
+2025-05-07 20:23:05,921 - translator - INFO - [翻译结果] 经过数月的准备,该产品最终推出.
+2025-05-07 20:23:05,921 - translator - INFO - 最终翻译结果: 经过数月的准备,该产品最终推出.
+2025-05-07 20:23:05,921 - translator - INFO - 总耗时: 104.10ms
+```

translator/translator.py CHANGED Viewed

@@ -1,8 +1,9 @@
-"""
-翻译模块 - 使用NLLB模型进行多语言翻译
-"""
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from langdetect import detect
 import torch
 import time
@@ -10,140 +11,95 @@ import logging
 # 配置日志
 def setup_logger(name, level=logging.INFO):
-    """设置日志记录器"""
     logger = logging.getLogger(name)
-    # 清除所有已有的handler，避免重复
     if logger.handlers:
         logger.handlers.clear()
-    # 添加新的handler
     handler = logging.StreamHandler()
     formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
     handler.setFormatter(formatter)
     logger.addHandler(handler)
     logger.setLevel(level)
-    # 禁止传播到父logger，避免重复日志
     logger.propagate = False
     return logger
-# 创建日志记录器
 logger = setup_logger("translator")
 class NLLBTranslator:
-    """
-    NLLB翻译器，使用Facebook的NLLB模型进行多语言翻译
-    """
-    def __init__(self, model_name="facebook/nllb-200-distilled-600M", default_target="eng_Latn"):
-        """
-        初始化NLLB翻译器
-        :param model_name: 模型名称
-        :param default_target: 默认目标语言代码
-        """
-        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         logger.debug(f"使用设备: {self.device}")
-        if self.device.type == "cuda":
-            logger.debug(f"GPU设备: {torch.cuda.get_device_name(0)}")
-            total_mem = torch.cuda.get_device_properties(0).total_memory / 1024**3
-            logger.debug(f"GPU显存: {total_mem:.1f} GB")
-        # 加载模型和分词器
-        logger.debug(f"加载模型: {model_name}")
-        self.tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
-        self.model = AutoModelForSeq2SeqLM.from_pretrained(
-            model_name,
-            torch_dtype=torch.float16 if self.device.type == "cuda" else torch.float32
-        ).to(self.device)
         self.default_target = default_target
-        logger.debug(f"翻译器初始化完成，默认目标语言: {default_target}")
-    def detect_lang_code(self, text: str) -> str:
-        """
-        检测文本语言并返回NLLB语言代码
-        :param text: 要检测的文本
-        :return: NLLB语言代码
-        """
-        try:
-            lang = detect(text)
-            logger.debug(f"检测到语言: {lang}")
-        except Exception:
-            logger.debug("语言检测失败，默认使用中文(zh)")
-            lang = "zh-cn"
-        # 语言代码映射
-        lang_map = {
-            "zh-cn": "zho_Hans", "zh": "zho_Hans", "en": "eng_Latn", "fr": "fra_Latn",
-            "de": "deu_Latn", "ja": "jpn_Jpan", "ko": "kor_Hang", "ar": "arb_Arab"
-        }
-        lang_code = lang_map.get(lang.lower(), "eng_Latn")
-        logger.debug(f"映射语言代码: {lang} -> {lang_code}")
-        return lang_code
-    def translate(self, text: str, target_lang_code: str = None) -> str:
-        """
-        翻译文本到目标语言
-        :param text: 要翻译的文本
-        :param target_lang_code: 目标语言代码，如果为None则使用默认目标语言
-        :return: 翻译后的文本
-        """
         logger.debug("开始翻译")
-        # 记录原文（INFO级别）
         logger.info(f"[翻译原文] {text}")
-        # 检测源语言
-        src_lang = self.detect_lang_code(text)
         tgt_lang = target_lang_code or self.default_target
-        # 准备输入
-        self.tokenizer.src_lang = src_lang
-        inputs = self.tokenizer(text, return_tensors="pt", padding=True, truncation=True).to(self.device)
-        inputs["forced_bos_token_id"] = self.tokenizer.convert_tokens_to_ids(tgt_lang)
-        # 执行翻译
-        start = time.time()
-        with torch.no_grad():
-            output = self.model.generate(**inputs, max_new_tokens=80)
-        # 解码结果
-        result = self.tokenizer.decode(output[0], skip_special_tokens=True)
-        # 记录耗时和结果
         duration = time.time() - start
-        logger.debug(f"翻译完成: {src_lang} -> {tgt_lang}, 耗时: {duration:.2f}秒")
-        # 记录翻译结果（INFO级别）
         logger.info(f"[翻译结果] {result}")
-        return result
 if __name__ == "__main__":
-    # 设置日志级别为DEBUG以查看详细信息
     logger.setLevel(logging.DEBUG)
-    # 创建翻译器
     translator = NLLBTranslator()
-    # 测试中文到英文
-    zh_text = "你会学习到如何使用音频数据集"
-    logger.info("\n==== 中文 → 英文 ====")
-    result = translator.translate(zh_text, target_lang_code="eng_Latn")
-    logger.info(f"测试完成: {result}")
-    # 测试英文到法语
-    en_text = "This audio processing pipeline is fast and accurate."
-    logger.info("\n==== 英文 → 法语 ====")
-    result = translator.translate(en_text, target_lang_code="fra_Latn")
-    logger.info(f"测试完成: {result}")
-    # 测试英文到阿拉伯语
-    logger.info("\n==== 英文 → 阿拉伯语 ====")
-    result = translator.translate(en_text, target_lang_code="arb_Arab")
-    logger.info(f"测试完成: {result}")

+'''
+翻译模块 - 使用CTranslate2加速的NLLB模型进行多语言翻译
+'''
+from ctranslate2 import Translator
+from transformers import AutoTokenizer
 from langdetect import detect
 import torch
 import time
 # 配置日志
 def setup_logger(name, level=logging.INFO):
     logger = logging.getLogger(name)
     if logger.handlers:
         logger.handlers.clear()
     handler = logging.StreamHandler()
     formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
     handler.setFormatter(formatter)
     logger.addHandler(handler)
     logger.setLevel(level)
     logger.propagate = False
     return logger
 logger = setup_logger("translator")
 class NLLBTranslator:
+    def __init__(self, model_dir="nllb-600m-ct2-int8-fp16", default_target="eng_Latn"):
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
         logger.debug(f"使用设备: {self.device}")
+        self.tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
+        self.translator = Translator(model_dir, device=self.device, compute_type="int8_float16")
         self.default_target = default_target
+    def translate(self, text: str, source_lang_code: str, target_lang_code: str = None) -> str:
         logger.debug("开始翻译")
         logger.info(f"[翻译原文] {text}")
+        src_lang = source_lang_code
         tgt_lang = target_lang_code or self.default_target
+        logger.debug(f"源语言: {src_lang}, 目标语言: {tgt_lang}")
+        # # 使用NLLB的标准格式处理源语言和目标语言
+        source = self.tokenizer.convert_ids_to_tokens(self.tokenizer.encode(text))
+        start = time.time()
+        target_prefix = [tgt_lang]
+        results = self.translator.translate_batch(
+            [source],
+            #beam_size=6,
+            length_penalty=1.2,
+            target_prefix=[target_prefix]
+        )
         duration = time.time() - start
+        output_tokens = results[0].hypotheses[0]
+        logger.debug(f"输出分词: {output_tokens}")
+        # 转换输出tokens为文本并清理
+        result = self.tokenizer.convert_tokens_to_string(output_tokens)
+        result = result.replace("<pad>", "").replace("</s>", "").replace("<s>", "").strip()
+        for lang_code in ["kor_Hang", "eng_Latn", "zho_Hans", "jpn_Jpan", "fra_Latn", "deu_Latn", "arb_Arab"]:
+            result = result.replace(lang_code, "").strip()
+        logger.debug(f"翻译完成: {src_lang} -> {tgt_lang}, 耗时: {duration * 1000:.2f}ms")
         logger.info(f"[翻译结果] {result}")
+        return result
 if __name__ == "__main__":
     logger.setLevel(logging.DEBUG)
     translator = NLLBTranslator()
+    test_cases = [
+        # 中文 -> 英文
+        ("请问这附近有地铁站吗？", "zho_Hans", "eng_Latn"),
+        ("我们今天要讨论人工智能的发展趋势。", "zho_Hans", "eng_Latn"),
+        ("他的回答令人非常失望。", "zho_Hans", "eng_Latn"),
+        ("这个项目已经进行了三个月，还需要更多资源支持。", "zho_Hans", "eng_Latn"),
+        ("天气预报说明天会有暴雨，请大家注意安全。", "zho_Hans", "eng_Latn"),
+        ("是时候重新思考我们的计划了。", "zho_Hans", "eng_Latn"),
+        ("我对这个结果非常满意，感谢你的努力。", "zho_Hans", "eng_Latn"),
+        ("她穿着一件红色的连衣裙，在人群中格外显眼。", "zho_Hans", "eng_Latn"),
+        # 英文 -> 中文
+        ("Can you help me find the nearest bus station?", "eng_Latn", "zho_Hans"),
+        ("The machine learning model achieved an accuracy of 95%.", "eng_Latn", "zho_Hans"),
+        ("He was overwhelmed by the unexpected response from the audience.", "eng_Latn", "zho_Hans"),
+        ("It’s important to stay hydrated during hot summer days.", "eng_Latn", "zho_Hans"),
+        ("Although she was tired, she continued working late into the night.", "eng_Latn", "zho_Hans"),
+        ("The concert was amazing, and the crowd was full of energy.", "eng_Latn", "zho_Hans"),
+        ("Please make sure to submit your application before the deadline.", "eng_Latn", "zho_Hans"),
+        ("After months of preparation, the product was finally launched.", "eng_Latn", "zho_Hans")
+    ]
+    for i, (text, src_lang, tgt_lang) in enumerate(test_cases):
+        logger.info(f"\n==== 测试用例 {i + 1} ====")
+        start_total = time.time()
+        result = translator.translate(text, source_lang_code=src_lang, target_lang_code=tgt_lang)
+        end_total = time.time()
+        logger.info(f"最终翻译结果: {result}")
+        logger.info(f"总耗时: {(end_total - start_total) * 1000:.2f}ms")