Spaces:

arshadchanna023
/

Sindhi-Speech-to-Text

Sleeping

arshadchanna023 commited on Sep 1

Commit

b603b58

verified ·

1 Parent(s): f98aceb

Upload 2 files

Files changed (2) hide show

app.py ADDED Viewed

+import gradio as gr
+import torch
+import librosa
+from transformers import WhisperForConditionalGeneration, WhisperProcessor
+MODEL = "steja/whisper-large-sindhi"  # Ya whisper-small-sindhi agar GPU na mile
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Model & processor load
+processor = WhisperProcessor.from_pretrained(MODEL)
+model = WhisperForConditionalGeneration.from_pretrained(MODEL).to(device)
+def transcribe(audio_file):
+    # audio_file is (sample_rate, numpy array)
+    sr, audio = audio_file
+    if sr != 16000:
+        audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
+        sr = 16000
+    inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
+    input_features = inputs.input_features.to(device)
+    # Generate prediction
+    pred_ids = model.generate(input_features)
+    text = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
+    return text
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(sources=["upload", "microphone"], type="numpy"),
+    outputs="text",
+    title="Sindhi Speech-to-Text (Whisper)",
+    description="Upload or record Sindhi audio to get transcription using steja/whisper-large-sindhi."
+)
+iface.launch()

requirements.txt ADDED Viewed

+transformers
+torch
+torchaudio
+librosa
+gradio