MMS-transcription

Sleeping

raphaelmerx commited on Jul 18, 2023

Commit

b912ddb

1 Parent(s): d690b2a

Add progress bar

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ model_id = "facebook/mms-1b-all"
 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
-def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (eng)"):
     if audio_file_mic:
         audio_file = audio_file_mic
     elif audio_file_upload:
@@ -22,10 +22,12 @@ def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (e
     else:
         return "Please upload an audio file or record one"
     # Make sure audio is 16kHz
     speech, sample_rate = librosa.load(audio_file)
     if sample_rate != 16000:
-        print('resampling')
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
     # Cut speech into chunks
@@ -38,7 +40,8 @@ def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (e
     model.load_adapter(language_code)
     transcriptions = []
-    for chunk in chunks:
         inputs = processor(chunk, sampling_rate=16_000, return_tensors="pt")
         with torch.no_grad():

 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
+def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (eng)", progress=gr.Progress()):
     if audio_file_mic:
         audio_file = audio_file_mic
     elif audio_file_upload:
     else:
         return "Please upload an audio file or record one"
+    progress(0, desc="Starting")
     # Make sure audio is 16kHz
     speech, sample_rate = librosa.load(audio_file)
     if sample_rate != 16000:
+        progress(1, desc="Resampling")
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
     # Cut speech into chunks
     model.load_adapter(language_code)
     transcriptions = []
+    progress(2, desc="Transcribing")
+    for chunk in progress.tqdm(chunks, desc="Transcribing"):
         inputs = processor(chunk, sampling_rate=16_000, return_tensors="pt")
         with torch.no_grad():