EgypTalk-ASR

Sleeping

App Files Files Community

Omartificial-Intelligence-Space commited on Aug 9

Commit

763786a

verified ·

1 Parent(s): a091506

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -11

app.py CHANGED Viewed

@@ -36,13 +36,22 @@ def get_model(model_name):
 @spaces.GPU(duration=120)
 def transcribe_and_score(audio):
     if audio is None:
-        return ""
     model = get_model(MODEL_NAMES[0])
     predictions = model.transcribe([audio])
-    pred = predictions[0] if isinstance(predictions, list) else predictions
-    if not isinstance(pred, str):
-        pred = str(pred)
-    return pred.strip()
 @spaces.GPU(duration=120)
 def batch_transcribe(audio_files):
@@ -50,23 +59,37 @@ def batch_transcribe(audio_files):
         return []
     model = get_model(MODEL_NAMES[0])
     predictions = model.transcribe(audio_files)
     if isinstance(predictions, list):
-        texts = [p if isinstance(p, str) else str(p) for p in predictions]
     else:
-        texts = [str(predictions)]
     return [[t.strip()] for t in texts]
 with gr.Blocks(title="EgypTalk-ASR-v2") as demo:
     gr.Markdown("""
     # EgypTalk-ASR-v2
-    Upload an audio file. This app transcribes audio using EgypTalk-ASR-v2.
     """)
     with gr.Tab("Single Test"):
         with gr.Row():
-            audio_input = gr.Audio(type="filepath", label="Audio File")
         transcribe_btn = gr.Button("Transcribe")
-        pred_output = gr.Textbox(label="Transcription")
-        transcribe_btn.click(transcribe_and_score, inputs=[audio_input], outputs=[pred_output])
     with gr.Tab("Batch Test"):
         gr.Markdown("Upload multiple audio files. Batch size is limited by GPU/CPU memory.")

 @spaces.GPU(duration=120)
 def transcribe_and_score(audio):
     if audio is None:
+        return "", None
     model = get_model(MODEL_NAMES[0])
     predictions = model.transcribe([audio])
+    item = predictions[0] if isinstance(predictions, list) else predictions
+    # Extract plain text regardless of return type
+    if hasattr(item, "text"):
+        text = item.text
+    elif isinstance(item, dict) and "text" in item:
+        text = item["text"]
+    elif isinstance(item, str):
+        text = item
+    else:
+        text = str(item)
+    return text.strip(), audio
 @spaces.GPU(duration=120)
 def batch_transcribe(audio_files):
         return []
     model = get_model(MODEL_NAMES[0])
     predictions = model.transcribe(audio_files)
+    texts = []
     if isinstance(predictions, list):
+        for p in predictions:
+            if hasattr(p, "text"):
+                t = p.text
+            elif isinstance(p, dict) and "text" in p:
+                t = p["text"]
+            elif isinstance(p, str):
+                t = p
+            else:
+                t = str(p)
+            texts.append(t)
     else:
+        texts.append(str(predictions))
     return [[t.strip()] for t in texts]
 with gr.Blocks(title="EgypTalk-ASR-v2") as demo:
     gr.Markdown("""
     # EgypTalk-ASR-v2
+    Upload or record an audio file. This app transcribes audio using EgypTalk-ASR-v2.
     """)
     with gr.Tab("Single Test"):
         with gr.Row():
+            audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio")
         transcribe_btn = gr.Button("Transcribe")
+        with gr.Row():
+            pred_output = gr.Textbox(label="Transcription")
+            audio_playback = gr.Audio(type="filepath", label="Playback")
+        transcribe_btn.click(transcribe_and_score, inputs=[audio_input], outputs=[pred_output, audio_playback])
     with gr.Tab("Batch Test"):
         gr.Markdown("Upload multiple audio files. Batch size is limited by GPU/CPU memory.")