Spaces:
Running
on
Zero
Running
on
Zero
Update docs
Browse files
README.md
CHANGED
@@ -1,6 +1,6 @@
|
|
1 |
---
|
2 |
-
title: Galgame Whisper
|
3 |
-
emoji:
|
4 |
colorFrom: blue
|
5 |
colorTo: pink
|
6 |
sdk: gradio
|
|
|
1 |
---
|
2 |
+
title: Galgame Whisper (WIP) Demo
|
3 |
+
emoji: 🥰🎤📝
|
4 |
colorFrom: blue
|
5 |
colorTo: pink
|
6 |
sdk: gradio
|
app.py
CHANGED
@@ -46,7 +46,9 @@ logger.success("Pipelines initialized!")
|
|
46 |
|
47 |
@spaces.GPU
|
48 |
def transcribe_common(audio: str, model: str) -> tuple[str, float]:
|
49 |
-
|
|
|
|
|
50 |
# Read and resample audio to 16kHz
|
51 |
y, sr = librosa.load(audio, mono=True, sr=16000)
|
52 |
# Get duration of audio
|
@@ -57,8 +59,7 @@ def transcribe_common(audio: str, model: str) -> tuple[str, float]:
|
|
57 |
start_time = time.time()
|
58 |
result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
|
59 |
end_time = time.time()
|
60 |
-
logger.success(f"
|
61 |
-
logger.success(f"Result:\n{result}")
|
62 |
return result, end_time - start_time
|
63 |
|
64 |
|
@@ -94,11 +95,12 @@ def transcribe_galgame_whisper(audio) -> tuple[str, float]:
|
|
94 |
initial_md = """
|
95 |
# Galgame-Whisper (WIP) Demo
|
96 |
|
|
|
97 |
- https://huggingface.co/litagin/galgame-whisper-wip
|
|
|
98 |
- 日本語のみ対応
|
|
|
99 |
- 比較できるように他モデルもついでに試せる
|
100 |
-
- 現在0.1エポックくらい
|
101 |
-
- 音声は15秒まで
|
102 |
|
103 |
pipeに渡しているkwargsは以下の通り:
|
104 |
```python
|
@@ -106,7 +108,7 @@ generate_kwargs = {
|
|
106 |
"language": "Japanese",
|
107 |
"do_sample": False,
|
108 |
"num_beams": 1,
|
109 |
-
"no_repeat_ngram_size": 3,
|
110 |
}
|
111 |
```
|
112 |
"""
|
|
|
46 |
|
47 |
@spaces.GPU
|
48 |
def transcribe_common(audio: str, model: str) -> tuple[str, float]:
|
49 |
+
filename = Path(audio).name
|
50 |
+
logger.info(f"Model: {model}")
|
51 |
+
logger.info(f"Audio: {filename}")
|
52 |
# Read and resample audio to 16kHz
|
53 |
y, sr = librosa.load(audio, mono=True, sr=16000)
|
54 |
# Get duration of audio
|
|
|
59 |
start_time = time.time()
|
60 |
result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
|
61 |
end_time = time.time()
|
62 |
+
logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
|
|
|
63 |
return result, end_time - start_time
|
64 |
|
65 |
|
|
|
95 |
initial_md = """
|
96 |
# Galgame-Whisper (WIP) Demo
|
97 |
|
98 |
+
- 音声認識モデル [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) をファインチューンした**未完成のモデル**のお試し
|
99 |
- https://huggingface.co/litagin/galgame-whisper-wip
|
100 |
+
- 現在0.1エポックくらい
|
101 |
- 日本語のみ対応
|
102 |
+
- デモでは音声は15秒まで
|
103 |
- 比較できるように他モデルもついでに試せる
|
|
|
|
|
104 |
|
105 |
pipeに渡しているkwargsは以下の通り:
|
106 |
```python
|
|
|
108 |
"language": "Japanese",
|
109 |
"do_sample": False,
|
110 |
"num_beams": 1,
|
111 |
+
"no_repeat_ngram_size": 3, # 3回以上の繰り返しを防ぐ
|
112 |
}
|
113 |
```
|
114 |
"""
|