VibeVoice

Running on Zero

yasserrmd commited on 20 days ago

Commit

03e7073

verified ·

1 Parent(s): 3ad533a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import argparse
 import os
 import time
 import numpy as np
@@ -8,8 +7,8 @@ import soundfile as sf
 import torch
 import traceback
 from spaces import GPU
-from vibevoice.modular.configuration_vibevoice import VibeVoiceConfig
 from vibevoice.modular.modeling_vibevoice_inference import VibeVoiceForConditionalGenerationInference
 from vibevoice.processor.vibevoice_processor import VibeVoiceProcessor
 from transformers.utils import logging
@@ -120,11 +119,13 @@ class VibeVoiceDemo:
             verbose=False
         )
-        # Extract audio
-        if isinstance(outputs, dict) and "audio" in outputs:
-            audio = outputs["audio"]
         else:
-            audio = outputs
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
@@ -134,8 +135,15 @@ class VibeVoiceDemo:
         sample_rate = 24000
         audio16 = convert_to_16_bit_wav(audio)
         total_dur = len(audio16) / sample_rate
-        log = f"✅ Generation complete in {time.time()-start:.1f}s, {total_dur:.1f}s audio"
         self.is_generating = False
         return (sample_rate, audio16), log

 import os
 import time
 import numpy as np
 import torch
 import traceback
 from spaces import GPU
+from datetime import datetime
 from vibevoice.modular.modeling_vibevoice_inference import VibeVoiceForConditionalGenerationInference
 from vibevoice.processor.vibevoice_processor import VibeVoiceProcessor
 from transformers.utils import logging
             verbose=False
         )
+        # --- handle model output ---
+        if hasattr(outputs, "audio"):
+            audio = outputs.audio
+        elif hasattr(outputs, "audios"):
+            audio = outputs.audios[0]
         else:
+            raise gr.Error("Model did not return audio in expected format.")
         if torch.is_tensor(audio):
             audio = audio.float().cpu().numpy()
         sample_rate = 24000
         audio16 = convert_to_16_bit_wav(audio)
+        # --- save automatically to disk ---
+        os.makedirs("outputs", exist_ok=True)
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        file_path = os.path.join("outputs", f"podcast_{timestamp}.wav")
+        sf.write(file_path, audio16, sample_rate)
+        print(f"💾 Saved podcast to {file_path}")
         total_dur = len(audio16) / sample_rate
+        log = f"✅ Generation complete in {time.time()-start:.1f}s, {total_dur:.1f}s audio\nSaved to {file_path}"
         self.is_generating = False
         return (sample_rate, audio16), log