Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 9

Commit

7d7504d

verified ·

1 Parent(s): 1bb8243

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -64,7 +64,7 @@ if not audio_files:
 print(f"✅ Found {len(audio_files)} audio files in dataset!")
 # ================================
-# 3️⃣ Preprocess Dataset (Manually)
 # ================================
 def load_and_process_audio(audio_path):
     """Loads and processes a single audio file into model format."""
@@ -73,13 +73,13 @@ def load_and_process_audio(audio_path):
     # Resample to 16kHz
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    # Convert to model input format
-    input_values = processor(waveform.squeeze().numpy(), sampling_rate=16000).input_values[0]
-    return input_values
 # Manually create dataset structure
-dataset = [{"input_values": load_and_process_audio(f), "labels": []} for f in audio_files[:100]]  # Load first 100
 print(f"✅ Dataset Loaded! Processed {len(dataset)} audio files.")
@@ -140,12 +140,12 @@ if audio_file:
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    # Convert audio to model input
-    input_values = processor(waveform.squeeze().numpy(), sampling_rate=16000).input_values[0]
     # Perform ASR inference
     with torch.no_grad():
-        input_tensor = torch.tensor([input_values]).to(device)
         logits = model(input_tensor).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]
@@ -164,7 +164,7 @@ if audio_file:
             corrected_input = processor.tokenizer(user_correction).input_ids
             # Dynamically add new example to dataset
-            dataset.append({"input_values": input_values, "labels": corrected_input})
             # Perform quick re-training (1 epoch)
             trainer.args.num_train_epochs = 1

 print(f"✅ Found {len(audio_files)} audio files in dataset!")
 # ================================
+# 3️⃣ Preprocess Dataset (Fixed input_features)
 # ================================
 def load_and_process_audio(audio_path):
     """Loads and processes a single audio file into model format."""
     # Resample to 16kHz
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    # Convert to model input format (Fixed key: use input_features instead of input_values)
+    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
+    return input_features
 # Manually create dataset structure
+dataset = [{"input_features": load_and_process_audio(f), "labels": []} for f in audio_files[:100]]  # Load first 100
 print(f"✅ Dataset Loaded! Processed {len(dataset)} audio files.")
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    # Convert audio to model input (Fixed key: use input_features)
+    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     # Perform ASR inference
     with torch.no_grad():
+        input_tensor = torch.tensor([input_features]).to(device)
         logits = model(input_tensor).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(predicted_ids)[0]
             corrected_input = processor.tokenizer(user_correction).input_ids
             # Dynamically add new example to dataset
+            dataset.append({"input_features": input_features, "labels": corrected_input})
             # Perform quick re-training (1 epoch)
             trainer.args.num_train_epochs = 1