vixtts-demo

Running

App Files Files Community

Uhhy commited on Sep 8, 2024

Commit

d270640

verified ·

1 Parent(s): 1c71ddb

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -40

app.py CHANGED Viewed

@@ -15,13 +15,11 @@ from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
-# download for mecab
 os.system("python -m unidic download")
-HF_TOKEN = os.environ.get("HF_TOKEN")
 api = HfApi(token=HF_TOKEN)
-# This will trigger downloading model
 print("Downloading if not downloaded viXTTS")
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
@@ -56,7 +54,8 @@ if torch.cuda.is_available():
 supported_languages = config.languages
 if not "vi" in supported_languages:
     supported_languages.append("vi")
 def normalize_vietnamese_text(text):
     text = (
@@ -75,7 +74,6 @@ def normalize_vietnamese_text(text):
 def calculate_keep_len(text, lang):
-    """Simple hack for short sentences"""
     if lang in ["ja", "zh-cn"]:
         return -1
@@ -98,23 +96,19 @@ def predict(
 ):
     if language not in supported_languages:
         metrics_text = gr.Warning(
-            f"Language you put {language} in is not in is not in our Supported Languages, please choose from dropdown"
         )
         return (None, metrics_text)
     speaker_wav = audio_file_pth
     if len(prompt) < 2:
-        metrics_text = gr.Warning("Please give a longer prompt text")
         return (None, metrics_text)
     if len(prompt) > 250000000:
         metrics_text = gr.Warning(
-            str(len(prompt))
-            + " characters.\n"
-            + "Your prompt is too long, please keep it under 250000000 characters\n"
-            + "Văn bản quá dài, vui lòng giữ dưới 250000000 ký tự."
         )
         return (None, metrics_text)
@@ -136,7 +130,7 @@ def predict(
         except Exception as e:
             print("Speaker encoding error", str(e))
             metrics_text = gr.Warning(
-                "It appears something wrong with reference, did you unmute your microphone?"
             )
             return (None, metrics_text)
@@ -145,7 +139,7 @@ def predict(
         if normalize_text and language == "vi":
             prompt = normalize_vietnamese_text(prompt)
-        print("I: Generating new audio...")
         t0 = time.time()
         out = MODEL.inference(
             prompt,
@@ -157,15 +151,14 @@ def predict(
             enable_text_splitting=True,
         )
         inference_time = time.time() - t0
-        print(f"I: Time to generate audio: {round(inference_time*1000)} milliseconds")
         metrics_text += (
-            f"Time to generate audio: {round(inference_time*1000)} milliseconds\n"
         )
         real_time_factor = (time.time() - t0) / out["wav"].shape[-1] * 24000
-        print(f"Real-time factor (RTF): {real_time_factor}")
-        metrics_text += f"Real-time factor (RTF): {real_time_factor:.2f}\n"
-        # Temporary hack for short sentences
         keep_len = calculate_keep_len(prompt, language)
         out["wav"] = out["wav"][:keep_len]
@@ -173,12 +166,11 @@ def predict(
     except RuntimeError as e:
         if "device-side assert" in str(e):
-            # cannot do anything on cuda device side error, need tor estart
             print(
                 f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}",
                 flush=True,
             )
-            gr.Warning("Unhandled Exception encounter, please retry in a minute")
             print("Cuda device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
@@ -205,7 +197,6 @@ def predict(
                 repo_type="dataset",
             )
-            # speaker_wav
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
@@ -216,7 +207,6 @@ def predict(
                 repo_type="dataset",
             )
-            # HF Space specific.. This error is unrecoverable need to restart space
             space = api.get_space_runtime(repo_id=repo_id)
             if space.stage != "BUILDING":
                 api.restart_space(repo_id=repo_id)
@@ -227,12 +217,12 @@ def predict(
             if "Failed to decode" in str(e):
                 print("Speaker encoding error", str(e))
                 metrics_text = gr.Warning(
-                    metrics_text="It appears something wrong with reference, did you unmute your microphone?"
                 )
             else:
                 print("RuntimeError: non device-side assert error:", str(e))
                 metrics_text = gr.Warning(
-                    "Something unexpected happened please retry again."
                 )
             return (None, metrics_text)
     return ("output.wav", metrics_text)
@@ -244,24 +234,22 @@ with gr.Blocks(analytics_enabled=False) as demo:
             gr.Markdown(
                 """
                 # viXTTS Demo ✨
-                - Github: https://github.com/thinhlpg/vixtts-demo/
-                - viVoice: https://github.com/thinhlpg/viVoice
                 """
             )
         with gr.Column():
-            # placeholder to align the image
             pass
     with gr.Row():
         with gr.Column():
             input_text_gr = gr.Textbox(
-                label="Text Prompt (Văn bản cần đọc)",
-                info="Mỗi câu nên từ 10 từ trở lên. Tối đa 250 ký tự (khoảng 2 - 3 câu).",
-                value="Xin chào, tôi là một mô hình chuyển đổi văn bản thành giọng nói tiếng Việt.",
             )
             language_gr = gr.Dropdown(
-                label="Language (Ngôn ngữ)",
                 choices=[
                     "vi",
                     "en",
                     "es",
@@ -282,28 +270,28 @@ with gr.Blocks(analytics_enabled=False) as demo:
                     "hi",
                 ],
                 max_choices=1,
-                value="vi",
             )
             normalize_text = gr.Checkbox(
-                label="Chuẩn hóa văn bản tiếng Việt",
-                info="Normalize Vietnamese text",
                 value=True,
             )
             ref_gr = gr.Audio(
-                label="Reference Audio (Giọng mẫu)",
                 type="filepath",
                 value="model/samples/nu-luu-loat.wav",
             )
             tts_button = gr.Button(
-                "Đọc 🗣️🔥",
                 elem_id="send-btn",
                 visible=True,
                 variant="primary",
             )
         with gr.Column():
-            audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
-            out_text_gr = gr.Text(label="Metrics")
     tts_button.click(
         predict,
@@ -318,4 +306,4 @@ with gr.Blocks(analytics_enabled=False) as demo:
     )
 demo.queue()
-demo.launch(debug=True, show_api=True, share=True)

 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
 os.system("python -m unidic download")
+HF_TOKEN = None
 api = HfApi(token=HF_TOKEN)
 print("Downloading if not downloaded viXTTS")
 checkpoint_dir = "model/"
 repo_id = "capleaf/viXTTS"
 supported_languages = config.languages
 if not "vi" in supported_languages:
     supported_languages.append("vi")
+if not "es-AR" in supported_languages:
+    supported_languages.append("es-AR")
 def normalize_vietnamese_text(text):
     text = (
 def calculate_keep_len(text, lang):
     if lang in ["ja", "zh-cn"]:
         return -1
 ):
     if language not in supported_languages:
         metrics_text = gr.Warning(
+            f"El idioma seleccionado ({language}) no está disponible. Por favor, elige uno de la lista."
         )
         return (None, metrics_text)
     speaker_wav = audio_file_pth
     if len(prompt) < 2:
+        metrics_text = gr.Warning("Por favor, introduce un texto más largo.")
         return (None, metrics_text)
     if len(prompt) > 250000000:
         metrics_text = gr.Warning(
+            f"El texto tiene {len(prompt)} caracteres. Es demasiado largo, por favor, mantenlo por debajo de 250000000 caracteres."
         )
         return (None, metrics_text)
         except Exception as e:
             print("Speaker encoding error", str(e))
             metrics_text = gr.Warning(
+                "¿Has activado el micrófono? Parece que hay un problema con la referencia de audio."
             )
             return (None, metrics_text)
         if normalize_text and language == "vi":
             prompt = normalize_vietnamese_text(prompt)
+        print("Generando nuevo audio...")
         t0 = time.time()
         out = MODEL.inference(
             prompt,
             enable_text_splitting=True,
         )
         inference_time = time.time() - t0
+        print(f"Tiempo de generación de audio: {round(inference_time*1000)} milisegundos")
         metrics_text += (
+            f"Tiempo de generación de audio: {round(inference_time*1000)} milisegundos\n"
         )
         real_time_factor = (time.time() - t0) / out["wav"].shape[-1] * 24000
+        print(f"Factor de tiempo real (RTF): {real_time_factor}")
+        metrics_text += f"Factor de tiempo real (RTF): {real_time_factor:.2f}\n"
         keep_len = calculate_keep_len(prompt, language)
         out["wav"] = out["wav"][:keep_len]
     except RuntimeError as e:
         if "device-side assert" in str(e):
             print(
                 f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}",
                 flush=True,
             )
+            gr.Warning("Se ha producido un error. Por favor, inténtalo de nuevo en un minuto.")
             print("Cuda device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
                 repo_type="dataset",
             )
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
                 repo_type="dataset",
             )
             space = api.get_space_runtime(repo_id=repo_id)
             if space.stage != "BUILDING":
                 api.restart_space(repo_id=repo_id)
             if "Failed to decode" in str(e):
                 print("Speaker encoding error", str(e))
                 metrics_text = gr.Warning(
+                    metrics_text="Parece que hay un problema con la referencia de audio. ¿Has activado el micrófono?"
                 )
             else:
                 print("RuntimeError: non device-side assert error:", str(e))
                 metrics_text = gr.Warning(
+                    "Se ha producido un error inesperado. Por favor, inténtalo de nuevo."
                 )
             return (None, metrics_text)
     return ("output.wav", metrics_text)
             gr.Markdown(
                 """
                 # viXTTS Demo ✨
                 """
             )
         with gr.Column():
             pass
     with gr.Row():
         with gr.Column():
             input_text_gr = gr.Textbox(
+                label="Texto a convertir a voz",
+                info="Cada frase debe tener al menos 10 palabras. Máximo 250 caracteres (alrededor de 2-3 frases).",
+                value="Hola, soy un modelo de texto a voz.",
             )
             language_gr = gr.Dropdown(
+                label="Idioma",
                 choices=[
+                    "es-AR",
                     "vi",
                     "en",
                     "es",
                     "hi",
                 ],
                 max_choices=1,
+                value="es-AR",
             )
             normalize_text = gr.Checkbox(
+                label="Normalizar texto en vietnamita",
+                info="Solo aplicable al idioma vietnamita",
                 value=True,
             )
             ref_gr = gr.Audio(
+                label="Audio de referencia (opcional)",
                 type="filepath",
                 value="model/samples/nu-luu-loat.wav",
             )
             tts_button = gr.Button(
+                "Generar voz 🗣️🔥",
                 elem_id="send-btn",
                 visible=True,
                 variant="primary",
             )
         with gr.Column():
+            audio_gr = gr.Audio(label="Audio generado", autoplay=True)
+            out_text_gr = gr.Text(label="Métricas")
     tts_button.click(
         predict,
     )
 demo.queue()
+demo.launch(debug=True, show_api=True, share=True)