Spaces:

FarmanMansoori
/

voice-clone

Build error

App Files Files Community

FarmanMansoori commited on Sep 3

Commit

4a1af29

verified ·

1 Parent(s): 5f55ad8

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -38

app.py CHANGED Viewed

@@ -1,57 +1,37 @@
 import os
 import torch
 import gradio as gr
-from huggingface_hub import hf_hub_download
 from openvoice import se_extractor
 from openvoice.api import BaseSpeakerTTS, ToneColorConverter
-# ---------------------------
-# Setup paths
-# ---------------------------
 CHECKPOINTS_DIR = "./checkpoints_v2"
 os.makedirs(CHECKPOINTS_DIR, exist_ok=True)
-# Download OpenVoice V2 checkpoints from Hugging Face
-hf_hub_download(repo_id="myshell-ai/OpenVoiceV2", local_dir=CHECKPOINTS_DIR, local_dir_use_symlinks=False)
-# Converter + base checkpoints
 ckpt_converter = os.path.join(CHECKPOINTS_DIR, "converter")
 ckpt_base = os.path.join(CHECKPOINTS_DIR, "base_speakers")
-# Output folder
 OUTPUT_DIR = "./outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
-# ---------------------------
-# Load models
-# ---------------------------
 device = "cuda" if torch.cuda.is_available() else "cpu"
 base_tts = BaseSpeakerTTS(ckpt_base, device=device)
 converter = ToneColorConverter(ckpt_converter, device=device)
-# ---------------------------
-# Default reference voice (from your repo)
-# ---------------------------
-DEFAULT_VOICE = os.path.join(os.path.dirname(__file__), "my_voice.wav")
-# ---------------------------
-# Voice generation function
-# ---------------------------
 def generate_voice(script, ref_audio):
-    if not script.strip():
         return None
-    # Use uploaded voice or fallback to default
     ref_audio = ref_audio or DEFAULT_VOICE
     target_se, _ = se_extractor.get_se(ref_audio, converter, vad=True)
-    # Step 1: Generate base speech
     src_path = os.path.join(OUTPUT_DIR, "tmp.wav")
     base_tts.tts(script, src_path, speaker="EN", language="EN")
-    # Step 2: Convert to target tone
-    out_path = os.path.join(OUTPUT_DIR, "output.wav")
     converter.convert(
         audio_src_path=src_path,
         src_se=None,
@@ -61,19 +41,14 @@ def generate_voice(script, ref_audio):
     return out_path
-# ---------------------------
-# Gradio app
-# ---------------------------
 with gr.Blocks() as demo:
-    gr.Markdown("# 🎙️ OpenVoice V2 - Voice Cloning")
-    gr.Markdown("Type a script and optionally upload a reference audio. If none is uploaded, your `my_voice.wav` file will be used.")
     script = gr.Textbox(label="Script", lines=4, placeholder="Enter text here...")
     ref_audio = gr.Audio(label="Reference Voice (optional)", type="filepath")
-    generate_btn = gr.Button("Generate Speech")
-    output_audio = gr.Audio(label="Generated Audio", type="filepath")
-    generate_btn.click(fn=generate_voice, inputs=[script, ref_audio], outputs=output_audio)
 if __name__ == "__main__":
-    demo.launch()

 import os
 import torch
 import gradio as gr
 from openvoice import se_extractor
 from openvoice.api import BaseSpeakerTTS, ToneColorConverter
+# paths
 CHECKPOINTS_DIR = "./checkpoints_v2"
 os.makedirs(CHECKPOINTS_DIR, exist_ok=True)
 ckpt_converter = os.path.join(CHECKPOINTS_DIR, "converter")
 ckpt_base = os.path.join(CHECKPOINTS_DIR, "base_speakers")
 OUTPUT_DIR = "./outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
+# Default voice in your repo root (you said you uploaded it)
+DEFAULT_VOICE = os.path.join(os.path.dirname(__file__), "my_voice.wav")
+# load models (will use available device)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 base_tts = BaseSpeakerTTS(ckpt_base, device=device)
 converter = ToneColorConverter(ckpt_converter, device=device)
 def generate_voice(script, ref_audio):
+    if not script or not script.strip():
         return None
     ref_audio = ref_audio or DEFAULT_VOICE
     target_se, _ = se_extractor.get_se(ref_audio, converter, vad=True)
     src_path = os.path.join(OUTPUT_DIR, "tmp.wav")
     base_tts.tts(script, src_path, speaker="EN", language="EN")
+    out_path = os.path.join(OUTPUT_DIR, f"output_{int(torch.randint(0,1e9,(1,)).item())}.wav")
     converter.convert(
         audio_src_path=src_path,
         src_se=None,
     return out_path
 with gr.Blocks() as demo:
+    gr.Markdown("# 🎙️ OpenVoice V2 - Voice Cloning (Space)")
+    gr.Markdown("Type text and optionally upload a reference audio. If none, `my_voice.wav` in repo root is used.")
     script = gr.Textbox(label="Script", lines=4, placeholder="Enter text here...")
     ref_audio = gr.Audio(label="Reference Voice (optional)", type="filepath")
+    btn = gr.Button("Generate")
+    out = gr.Audio(label="Generated Audio", type="filepath")
+    btn.click(generate_voice, inputs=[script, ref_audio], outputs=out)
 if __name__ == "__main__":
+    demo.launch()