VoiceClone

Running on Zero

App Files Files Community

fantos commited on Jan 17

Commit

0473607

verified ·

1 Parent(s): c1e33d1

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -146

app.py CHANGED Viewed

@@ -20,13 +20,10 @@ def generate_tts(text, temperature, repetition_penalty, speaker_selection, refer
     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
     try:
-        # Validate inputs for custom speaker
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
-        # Use selected default speaker
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
-        # No speaker - random characteristics
         else:
             speaker = None
@@ -39,175 +36,58 @@ def generate_tts(text, temperature, repetition_penalty, speaker_selection, refer
         )
         output = interface.generate(config=gen_cfg)
-        # Verify output
         if output.audio is None:
             raise ValueError("Model failed to generate audio. This may be due to input length constraints or early EOS token.")
-        # Save and return output
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
-# Custom CSS for 3D styling
-custom_css = """
-.container {
-    background: linear-gradient(145deg, #f3f4f6, #ffffff);
-    border-radius: 20px;
-    box-shadow: 10px 10px 20px #d1d1d1, -10px -10px 20px #ffffff;
-    padding: 2rem;
-    margin: 1rem;
-    transition: all 0.3s ease;
-    min-height: 800px;
-    width: 100%;
-    max-width: 1400px;
-    margin: 0 auto;
-}
-.title {
-    font-size: 2.5rem;
-    font-weight: bold;
-    color: #1a1a1a;
-    text-align: center;
-    margin-bottom: 2rem;
-    text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.1);
-}
-.input-group {
-    background: #ffffff;
-    border-radius: 15px;
-    padding: 1.5rem;
-    margin: 1rem 0;
-    box-shadow: inset 5px 5px 10px #e0e0e0, inset -5px -5px 10px #ffffff;
-}
-.button-3d {
-    background: linear-gradient(145deg, #3b82f6, #2563eb);
-    color: white;
-    border: none;
-    padding: 0.8rem 1.5rem;
-    border-radius: 10px;
-    font-weight: bold;
-    cursor: pointer;
-    transition: all 0.3s ease;
-    box-shadow: 5px 5px 10px #d1d1d1, -5px -5px 10px #ffffff;
-}
-.button-3d:hover {
-    transform: translateY(-2px);
-    box-shadow: 7px 7px 15px #d1d1d1, -7px -7px 15px #ffffff;
-}
-.slider-3d {
-    height: 12px;
-    border-radius: 6px;
-    background: linear-gradient(145deg, #e6e7eb, #ffffff);
-    box-shadow: inset 3px 3px 6px #d1d1d1, inset -3px -3px 6px #ffffff;
-}
-.error-box {
-    background: #fee2e2;
-    border-left: 4px solid #ef4444;
-    padding: 1rem;
-    border-radius: 8px;
-    margin: 1rem 0;
-}
-.right-column {
-    display: flex;
-    flex-direction: column;
-    gap: 1rem;
-}
-.options-panel {
-    margin-top: 2rem;
-    background: linear-gradient(145deg, #f3f4f6, #ffffff);
-    border-radius: 15px;
-    padding: 2.5rem;
-    box-shadow: 5px 5px 10px #d1d1d1, -5px -5px 10px #ffffff;
-    display: flex;
-    flex-direction: column;
-    gap: 2rem;
-}
-.input-box {
-    padding: 1.5rem;
-    background: #ffffff;
-    border-radius: 12px;
-    margin-bottom: 1.5rem;
-    box-shadow: inset 3px 3px 7px #e0e0e0, inset -3px -3px 7px #ffffff;
-}
-.slider-container {
-    margin: 2rem 0;
-}
-.textbox-container {
-    min-height: 150px;
-}
-"""
-# Create the Gradio interface with 3D styling
-with gr.Blocks(css=custom_css) as demo:
-    gr.Markdown('<div class="title">Voice Clone Multilingual TTS</div>')
-    error_box = gr.Textbox(label="Error Messages", visible=False, elem_classes="error-box")
-    with gr.Row(elem_classes="container"):
-        # Left column for text input
         with gr.Column(scale=1):
-            with gr.Group(elem_classes="textbox-container"):
-                text_input = gr.Textbox(
-                    label="Text to Synthesize",
-                    placeholder="Enter text here...",
-                    elem_classes="input-group",
-                    lines=8
-                )
-            submit_button = gr.Button(
-                "Generate Speech",
-                elem_classes="button-3d"
             )
-        # Right column for output and options
-        with gr.Column(scale=1, elem_classes="right-column"):
-            # Audio output at the top
             audio_output = gr.Audio(
                 label="Generated Audio",
-                type="filepath",
-                elem_classes="input-group"
             )
-            # Options panel below the output
-            with gr.Group(elem_classes="options-panel"):
                 speaker_dropdown = gr.Dropdown(
                     choices=get_available_speakers(),
                     value="en_male_1",
-                    label="Speaker Selection",
-                    elem_classes="input-group"
                 )
-                with gr.Group(elem_classes="slider-container"):
-                    temperature = gr.Slider(
-                        0.1, 1.0,
-                        value=0.1,
-                        label="Temperature (lower = more stable tone, higher = more expressive)",
-                        elem_classes="slider-3d"
-                    )
-                with gr.Group(elem_classes="slider-container"):
-                    repetition_penalty = gr.Slider(
-                        0.5, 2.0,
-                        value=1.1,
-                        label="Repetition Penalty",
-                        elem_classes="slider-3d"
-                    )
                 reference_audio = gr.Audio(
                     label="Reference Audio (for voice cloning)",
-                    type="filepath",
-                    elem_classes="input-group"
                 )
                 gr.Markdown("""
@@ -216,7 +96,7 @@ with gr.Blocks(css=custom_css) as demo:
                 - For transcription interface will use Whisper turbo to transcribe the audio file
                 - Longer audio clips will reduce maximum output length
                 - Custom speaker overrides speaker selection
-                """, elem_classes="input-group")
     submit_button.click(
         fn=generate_tts,

     interface = outetts.InterfaceHF(model_version="0.3", cfg=model_config)
     try:
         if reference_audio:
             speaker = interface.create_speaker(reference_audio)
         elif speaker_selection and speaker_selection != "None":
             speaker = interface.load_default_speaker(speaker_selection)
         else:
             speaker = None
         )
         output = interface.generate(config=gen_cfg)
         if output.audio is None:
             raise ValueError("Model failed to generate audio. This may be due to input length constraints or early EOS token.")
         output_path = "output.wav"
         output.save(output_path)
         return output_path, None
     except Exception as e:
         return None, str(e)
+with gr.Blocks(theme="Yntec/HaleyCH_Theme_Orange") as demo:
+    gr.Markdown("# Voice Clone Multilingual TTS")
+    error_box = gr.Textbox(label="Error Messages", visible=False)
+    with gr.Row():
         with gr.Column(scale=1):
+            text_input = gr.Textbox(
+                label="Text to Synthesize",
+                placeholder="Enter text here...",
+                lines=8
             )
+            submit_button = gr.Button("Generate Speech")
+        with gr.Column(scale=1):
             audio_output = gr.Audio(
                 label="Generated Audio",
+                type="filepath"
             )
+            with gr.Group():
                 speaker_dropdown = gr.Dropdown(
                     choices=get_available_speakers(),
                     value="en_male_1",
+                    label="Speaker Selection"
                 )
+                temperature = gr.Slider(
+                    0.1, 1.0,
+                    value=0.1,
+                    label="Temperature (lower = more stable tone, higher = more expressive)"
+                )
+                repetition_penalty = gr.Slider(
+                    0.5, 2.0,
+                    value=1.1,
+                    label="Repetition Penalty"
+                )
                 reference_audio = gr.Audio(
                     label="Reference Audio (for voice cloning)",
+                    type="filepath"
                 )
                 gr.Markdown("""
                 - For transcription interface will use Whisper turbo to transcribe the audio file
                 - Longer audio clips will reduce maximum output length
                 - Custom speaker overrides speaker selection
+                """)
     submit_button.click(
         fn=generate_tts,