faster-whisper-transcription-api

Sleeping

App Files Files Community

DavidLanz commited on Aug 25

Commit

82057f3

verified ·

1 Parent(s): 856102f

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -27

app.py CHANGED Viewed

@@ -32,6 +32,9 @@ ALLOWED_EXTENSIONS = ALLOWED_AUDIO_EXTENSIONS.union(ALLOWED_VIDEO_EXTENSIONS)
 API_KEY = os.environ.get("API_KEY")  # 在 HF Space 的 Repo secrets 設定
 MODEL_NAME = os.environ.get("WHISPER_MODEL", "guillaumekln/faster-whisper-large-v2")
 # ------------------------------------
 # 裝置與模型
 # ------------------------------------
@@ -64,7 +67,7 @@ active_requests = 0
 # ------------------------------------
 def validate_api_key(req):
     api_key = req.headers.get('X-API-Key')
-    return api_key == API_KEY if API_KEY else False
 def allowed_file(filename):
     return '.' in filename and filename.rsplit('.', 1)[1].lower() in ALLOWED_EXTENSIONS
@@ -83,7 +86,7 @@ def extract_audio_from_video(video_path, output_audio_path):
     使用 ffmpeg 從影片擷取 PCM WAV，並用 moviepy 檢查長度
     """
     try:
-        # 先擷取聲音
         ffmpeg.input(video_path).output(
             output_audio_path,
             acodec='pcm_s16le'
@@ -94,17 +97,17 @@ def extract_audio_from_video(video_path, output_audio_path):
         video = VideoFileClip(video_path)
         if video.duration > MAX_FILE_DURATION:
             video.close()
-            raise ValueError(f"影音時長超過 {MAX_FILE_DURATION} 秒")
         video.close()
         return output_audio_path
     except Exception as e:
-        logging.exception("提取影音中的聲音出錯")
-        raise Exception(f"提取影音中的聲音出錯: {str(e)}")
 def fmt_mmss_mmm(seconds: float) -> str:
     """
-    轉成 MM:SS.mmm（符合你給的 JSON 範例，如 00:01.000）
     若未來需要小時欄位，可改為 HH:MM:SS.mmm。
     """
     if seconds is None:
@@ -114,17 +117,26 @@ def fmt_mmss_mmm(seconds: float) -> str:
     sec, ms = divmod(ms, 1000)
     return f"{minutes:02d}:{sec:02d}.{ms:03d}"
-def read_lang_param():
     """
-    讀取 ?lang= 參數；'auto' 或空字串時回傳 None（自動偵測）
     """
     lang_param = request.args.get("lang", "").strip()
-    return None if (not lang_param or lang_param.lower() == "auto") else lang_param
 def run_transcribe_pipeline(uploaded_file_path: str, file_extension: str):
     """
-    共用的轉錄流程：處理影片/聲音、長度檢查、呼叫 Faster-Whisper。
-    回傳：(segments_iterable, is_video)
     """
     is_video = file_extension in ALLOWED_VIDEO_EXTENSIONS
     temp_audio_path = None
@@ -135,36 +147,40 @@ def run_transcribe_pipeline(uploaded_file_path: str, file_extension: str):
         transcription_file = temp_audio_path
     else:
         transcription_file = uploaded_file_path
-        # 檢查聲音長度
         try:
             waveform, sample_rate = torchaudio.load(transcription_file, format=file_extension)
             duration = waveform.size(1) / sample_rate
             if duration > MAX_FILE_DURATION:
-                raise ValueError(f"聲音時長超過 {MAX_FILE_DURATION} 秒")
         except Exception:
-            logging.exception(f"使用 torchaudio.load 載入聲音檔出錯: {transcription_file}")
             try:
                 torchaudio.set_audio_backend("soundfile")
                 waveform, sample_rate = torchaudio.load(transcription_file)
                 duration = waveform.size(1) / sample_rate
                 if duration > MAX_FILE_DURATION:
-                    raise ValueError(f"聲音時長超過 {MAX_FILE_DURATION} 秒")
             except Exception as soundfile_err:
-                logging.exception(f"使用 soundfile 後端載入聲音檔出錯: {transcription_file}")
-                raise Exception(f'使用兩個後端載入聲音檔都出錯: {str(soundfile_err)}')
             finally:
                 torchaudio.set_audio_backend("default")
     # 轉錄（保留 segment 級時間）
-    language = read_lang_param()
     segments, info = wmodel.transcribe(
         transcription_file,
         beam_size=beamsize,
         vad_filter=True,
-        without_timestamps=False,  # 要保留時間戳
         compression_ratio_threshold=2.4,
-        word_timestamps=False,     # 如需字級，設 True
-        language=language
     )
     return segments, is_video, temp_audio_path
@@ -182,7 +198,9 @@ def health_check():
         'active_requests': active_requests,
         'max_duration_supported': MAX_FILE_DURATION,
         'supported_formats': list(ALLOWED_EXTENSIONS),
-        'model': MODEL_NAME
     })
 @app.route("/status/busy", methods=["GET"])
@@ -208,7 +226,7 @@ def transcribe_json():
         return jsonify({'error': '伺服器繁忙'}), 503
     active_requests += 1
-    start_time = time.time()
     temp_file_path = None
     temp_audio_path = None
@@ -260,7 +278,7 @@ def transcribe_json():
         cleanup_temp_files(temp_file_path, temp_audio_path)
         active_requests -= 1
         request_semaphore.release()
-        logging.info(f"處理時間：{time.time() - start_time:.2f}s (活動請求：{active_requests})")
 # ------------------------------------
 # 端點 2：純文字（整段合併，沒有時間戳）
@@ -276,7 +294,7 @@ def transcribe_text_only():
         return jsonify({'error': '伺服器繁忙'}), 503
     active_requests += 1
-    start_time = time.time()
     temp_file_path = None
     temp_audio_path = None
@@ -317,7 +335,7 @@ def transcribe_text_only():
         cleanup_temp_files(temp_file_path, temp_audio_path)
         active_requests -= 1
         request_semaphore.release()
-        logging.info(f"處理時間：{time.time() - start_time:.2f}s (活動請求：{active_requests})")
 if __name__ == "__main__":
@@ -325,4 +343,4 @@ if __name__ == "__main__":
         os.makedirs(TEMPORARY_FOLDER)
         logging.info(f"新建暫存檔案夾: {TEMPORARY_FOLDER}")
-    app.run(host="0.0.0.0", port=7860, threaded=True)

 API_KEY = os.environ.get("API_KEY")  # 在 HF Space 的 Repo secrets 設定
 MODEL_NAME = os.environ.get("WHISPER_MODEL", "guillaumekln/faster-whisper-large-v2")
+# 預設提示（可用 ?prompt 覆蓋）
+DEFAULT_INITIAL_PROMPT = "請使用繁體中文輸出"
 # ------------------------------------
 # 裝置與模型
 # ------------------------------------
 # ------------------------------------
 def validate_api_key(req):
     api_key = req.headers.get('X-API-Key')
+    return api_key == API_KEY if API_KEY else True  # 若沒設定 API_KEY，預設放行（可依需求改）
 def allowed_file(filename):
     return '.' in filename and filename.rsplit('.', 1)[1].lower() in ALLOWED_EXTENSIONS
     使用 ffmpeg 從影片擷取 PCM WAV，並用 moviepy 檢查長度
     """
     try:
+        # 先擷取音訊
         ffmpeg.input(video_path).output(
             output_audio_path,
             acodec='pcm_s16le'
         video = VideoFileClip(video_path)
         if video.duration > MAX_FILE_DURATION:
             video.close()
+            raise ValueError(f"視頻時長超過 {MAX_FILE_DURATION} 秒")
         video.close()
         return output_audio_path
     except Exception as e:
+        logging.exception("提取視頻中的音訊出錯")
+        raise Exception(f"提取視頻中的音訊出錯: {str(e)}")
 def fmt_mmss_mmm(seconds: float) -> str:
     """
+    轉成 MM:SS.mmm（符合需求，如 00:01.000）
     若未來需要小時欄位，可改為 HH:MM:SS.mmm。
     """
     if seconds is None:
     sec, ms = divmod(ms, 1000)
     return f"{minutes:02d}:{sec:02d}.{ms:03d}"
+def read_lang_param_with_default_zh():
     """
+    讀取 ?lang= 參數；沒帶或為 auto 時預設繁體中文 (zh)
     """
     lang_param = request.args.get("lang", "").strip()
+    if not lang_param or lang_param.lower() == "auto":
+        return "zh"
+    return lang_param
+def read_initial_prompt():
+    """
+    讀取 ?prompt= 參數；沒帶則使用 DEFAULT_INITIAL_PROMPT
+    """
+    prompt = request.args.get("prompt", "").strip()
+    return prompt if prompt else DEFAULT_INITIAL_PROMPT
 def run_transcribe_pipeline(uploaded_file_path: str, file_extension: str):
     """
+    共用的轉錄流程：處理影片/音訊、長度檢查、呼叫 Faster-Whisper。
+    回傳：(segments_iterable, is_video, temp_audio_path)
     """
     is_video = file_extension in ALLOWED_VIDEO_EXTENSIONS
     temp_audio_path = None
         transcription_file = temp_audio_path
     else:
         transcription_file = uploaded_file_path
+        # 檢查音訊長度
         try:
             waveform, sample_rate = torchaudio.load(transcription_file, format=file_extension)
             duration = waveform.size(1) / sample_rate
             if duration > MAX_FILE_DURATION:
+                raise ValueError(f"音訊時長超過 {MAX_FILE_DURATION} 秒")
         except Exception:
+            logging.exception(f"使用 torchaudio.load 載入音訊檔出錯: {transcription_file}")
             try:
                 torchaudio.set_audio_backend("soundfile")
                 waveform, sample_rate = torchaudio.load(transcription_file)
                 duration = waveform.size(1) / sample_rate
                 if duration > MAX_FILE_DURATION:
+                    raise ValueError(f"音訊時長超過 {MAX_FILE_DURATION} 秒")
             except Exception as soundfile_err:
+                logging.exception(f"使用 soundfile 後端載入音訊檔出錯: {transcription_file}")
+                raise Exception(f'使用兩個後端載入音訊檔都出錯: {str(soundfile_err)}')
             finally:
                 torchaudio.set_audio_backend("default")
+    # 預設語言 zh，並帶 initial_prompt（可被 ?lang / ?prompt 覆蓋）
+    language = read_lang_param_with_default_zh()
+    initial_prompt = read_initial_prompt()
     # 轉錄（保留 segment 級時間）
     segments, info = wmodel.transcribe(
         transcription_file,
         beam_size=beamsize,
         vad_filter=True,
+        without_timestamps=False,   # 要保留時間戳
         compression_ratio_threshold=2.4,
+        word_timestamps=False,      # 如需字級，設 True
+        language=language,
+        initial_prompt=initial_prompt
     )
     return segments, is_video, temp_audio_path
         'active_requests': active_requests,
         'max_duration_supported': MAX_FILE_DURATION,
         'supported_formats': list(ALLOWED_EXTENSIONS),
+        'model': MODEL_NAME,
+        'default_language': 'zh',
+        'default_initial_prompt': DEFAULT_INITIAL_PROMPT
     })
 @app.route("/status/busy", methods=["GET"])
         return jsonify({'error': '伺服器繁忙'}), 503
     active_requests += 1
+    t0 = time.time()
     temp_file_path = None
     temp_audio_path = None
         cleanup_temp_files(temp_file_path, temp_audio_path)
         active_requests -= 1
         request_semaphore.release()
+        logging.info(f"/whisper_transcribe 用時：{time.time() - t0:.2f}s (活動請求：{active_requests})")
 # ------------------------------------
 # 端點 2：純文字（整段合併，沒有時間戳）
         return jsonify({'error': '伺服器繁忙'}), 503
     active_requests += 1
+    t0 = time.time()
     temp_file_path = None
     temp_audio_path = None
         cleanup_temp_files(temp_file_path, temp_audio_path)
         active_requests -= 1
         request_semaphore.release()
+        logging.info(f"/whisper_transcribe_text 用時：{time.time() - t0:.2f}s (活動請求：{active_requests})")
 if __name__ == "__main__":
         os.makedirs(TEMPORARY_FOLDER)
         logging.info(f"新建暫存檔案夾: {TEMPORARY_FOLDER}")
+    app.run(host="0.0.0.0", port=7860, threaded=True)