Spaces:

litagin
/

anime-whisper-demo

Running on Zero

App Files Files Community

litagin commited on Oct 13, 2024

Commit

4d2d3bd

1 Parent(s): 5331478

Change generate_kwargs

Browse files

Files changed (1) hide show

app.py +15 -10

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import time
 from pathlib import Path
 import gradio as gr
@@ -9,13 +10,16 @@ import torch
 from loguru import logger
 from transformers import pipeline
 is_hf = os.getenv("SYSTEM") == "spaces"
 generate_kwargs = {
     "language": "Japanese",
-    "do_sample": False,
-    "num_beams": 1,
-    "no_repeat_ngram_size": 3,
 }
@@ -46,6 +50,8 @@ logger.success("Pipelines initialized!")
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
@@ -55,7 +61,8 @@ def transcribe_common(audio: str, model: str) -> tuple[str, float]:
     duration = librosa.get_duration(y=y, sr=sr)
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
-        return "Audio too long, limit is 15 seconds", 0
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
@@ -97,18 +104,16 @@ initial_md = """
 - 音声認識モデル [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をファインチューンした**未完成のモデル**のお試し
 - https://huggingface.co/litagin/galgame-whisper-wip
 - 現在0.1エポックくらい
-- 日本語のみ対応
-- デモでは音声は15秒まで
 - 比較できるように他モデルもついでに試せる
-pipeに渡しているkwargsは以下の通り:
 ```python
 generate_kwargs = {
     "language": "Japanese",
-    "do_sample": False,
-    "num_beams": 1,
-    "no_repeat_ngram_size": 3,  # 3回以上の繰り返しを防ぐ
 }
 ```
 """

 import os
 import time
+import warnings
 from pathlib import Path
 import gradio as gr
 from loguru import logger
 from transformers import pipeline
+warnings.filterwarnings("ignore")
 is_hf = os.getenv("SYSTEM") == "spaces"
 generate_kwargs = {
     "language": "Japanese",
+    # "do_sample": False,
+    # "num_beams": 1,
+    # "no_repeat_ngram_size": 3,
+    "max_new_tokens": 64,
 }
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
+    if not audio:
+        return "No audio file", 0
     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
     duration = librosa.get_duration(y=y, sr=sr)
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
+        logger.error(f"Audio too long, limit is 15 seconds, got {duration:.2f}s")
+        return f"Audio too long, limit is 15 seconds, got {duration:.2f}s", 0
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
 - 音声認識モデル [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をファインチューンした**未完成のモデル**のお試し
 - https://huggingface.co/litagin/galgame-whisper-wip
+- デモでは**音声は15秒まで**しか受け付けません
+- 日本語のみ対応 (Japanese only)
 - 現在0.1エポックくらい
 - 比較できるように他モデルもついでに試せる
+pipeに渡しているkwargsは以下の最低限のもの:
 ```python
 generate_kwargs = {
     "language": "Japanese",
+    "max_new_tokens": 64,
 }
 ```
 """