Spaces:

YoMioAI
/

GPT-SoVITS-3s-cloning-free-TTS

Running

App Files Files Community

Xinonria commited on Oct 16, 2024

Commit

d2a383f

1 Parent(s): 1eadb7b

feat: add 30s cd for creating voice

Browse files

Files changed (1) hide show

app.py +102 -24

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import time
 import os
 import logging
@@ -47,7 +48,7 @@ def update_all_characters(lang, category):
             selected_index=None,
         ),
         category,
-        gr.update(choices=category, value=category[0])
     )
@@ -77,7 +78,7 @@ def get_characters(
     # 处理头像数据
     import pickle
     def process_avatar(avatar):
         if not isinstance(avatar, str):
             try:
@@ -85,8 +86,8 @@ def get_characters(
             except:
                 return avatar
         return avatar
-    unique_characters['头像'] = unique_characters['头像'].apply(process_avatar)
     # 应用分页
     start_index = (page - 1) * per_page
@@ -334,15 +335,45 @@ async def update_prompt_audio(current_character):
     else:
         return None
-async def create_voice(avatar, name, emotion, tags, gender, audio_data, lang):
     updates = {}
-    for field, value in [("avatar", avatar), ("name", name), ("emotion", emotion), ("tags", tags), ("gender", gender), ("audio_data", audio_data)]:
         if field in ["avatar", "audio_data"]:
             if value is None or (isinstance(value, np.ndarray) and value.size == 0):
                 updates[field] = gr.update(value=None)
         elif value == "":
             updates[field] = gr.update(value="")
     if updates:
         if lang == "zh":
             gr.Warning("请填写完整信息")
@@ -352,7 +383,10 @@ async def create_voice(avatar, name, emotion, tags, gender, audio_data, lang):
             gr.Warning("すべての情報を入力してください")
         elif lang == "ko":
             gr.Warning("모든 정보를 입력하세요")
-        return tuple(updates.get(field, gr.update()) for field in ["avatar", "name", "emotion", "tags", "gender", "audio_data"])
     duration = len(audio_data[1]) / audio_data[0]
     if duration < 3.2 or duration > 8:
         if lang == "zh":
@@ -363,17 +397,25 @@ async def create_voice(avatar, name, emotion, tags, gender, audio_data, lang):
             gr.Warning("音声の長さは3.2秒から8秒の間にしてください")
         elif lang == "ko":
             gr.Warning("음성 길이는 3.2초에서 8초 사이로 설정해야 합니다")
-        return avatar, name, emotion, tags, gender, audio_data
     await generate_voice(avatar, name, emotion, tags, gender, audio_data, lang)
     if lang == "zh":
-        gr.Info("创建成功，您创建的语音将在审核后上线")
     elif lang == "en":
-        gr.Info("Creation successful. The voice you created will be available after review.")
     elif lang == "ja":
-        gr.Info("作成が完了しました。作成された音声は審査後に公開されます。")
     elif lang == "ko":
-        gr.Info("생성 완료. 귀하가 생성한 음성은 검토 후 공개될 예정입니다.")
-    return avatar, name, emotion, tags, gender, audio_data
 head = """
 <title>Free Online Text to Speech (TTS) | Convert Text to Audio</title>
@@ -500,19 +542,29 @@ with gr.Blocks(title="Online Free TTS", theme=gr.themes.Soft(), head=head) as de
                 pass
         with gr.Tab(gettext("Create Voice")):
             gr.Markdown(gettext("Note"))
             with gr.Row():
-                avatar = gr.Image(label=gettext("Avatar"), interactive=True, type="pil", image_mode="RGBA")
                 with gr.Column():
                     with gr.Row():
                         name = gr.Textbox(
                             label=gettext("Name"), interactive=True, max_lines=1
                         )
                         emotion = gr.Textbox(
-                            label=gettext("Emotion\n(Happy, Sad, Angry)"), interactive=True, max_lines=1
                         )
                         tags = gr.Textbox(
-                            label=gettext("Tags\n(Genshin, Cute, Girl, Boy, etc.)"), interactive=True, max_lines=1
                         )
                         gender = gr.Dropdown(
                             label=gettext("Gender"),
@@ -523,9 +575,14 @@ with gr.Blocks(title="Online Free TTS", theme=gr.themes.Soft(), head=head) as de
                             ],
                             interactive=True,
                         )
-                    audio_data = gr.Audio(label=gettext("Prompt Audio(min 3.2s, max 8s)"), interactive=True)
-                    create_button = gr.Button(gettext("Create Voice"), variant="primary")
         gr.Markdown(gettext(terms))
         # -------------- 绑定事件 --------------
@@ -534,8 +591,12 @@ with gr.Blocks(title="Online Free TTS", theme=gr.themes.Soft(), head=head) as de
             inputs=[lang, category],
             outputs=[all_characters_state, characters, gallery, category, kind],
         )
-        demo.load(update_all_characters, inputs=[lang, category], outputs=[all_characters_state, characters, gallery, category, kind])
         add_voice_button.click(
             fn=add_new_voice,
@@ -603,8 +664,25 @@ with gr.Blocks(title="Online Free TTS", theme=gr.themes.Soft(), head=head) as de
         create_button.click(
             fn=create_voice,
-            inputs=[avatar, name, emotion, tags, gender, audio_data, lang],
-            outputs=[avatar, name, emotion, tags, gender, audio_data],
         )

+import sys
 import time
 import os
 import logging
             selected_index=None,
         ),
         category,
+        gr.update(choices=category, value=category[0]),
     )
     # 处理头像数据
     import pickle
     def process_avatar(avatar):
         if not isinstance(avatar, str):
             try:
             except:
                 return avatar
         return avatar
+    unique_characters["头像"] = unique_characters["头像"].apply(process_avatar)
     # 应用分页
     start_index = (page - 1) * per_page
     else:
         return None
+async def create_voice(
+    avatar, name, emotion, tags, gender, audio_data, lang, since_last_update
+):
+    if since_last_update is None:
+        since_last_update = time.time()
+    elif time.time() - since_last_update < 30:
+        if lang == "zh":
+            gr.Warning(
+                f"已提交上个创建请求，请在{30 - (time.time() - since_last_update):.1f}秒后提交新的角色"
+            )
+        elif lang == "en":
+            gr.Warning(
+                f"The last creation request has been submitted. Please try to create a new character after {30 - (time.time() - since_last_update):.1f} seconds"
+            )
+        elif lang == "ja":
+            gr.Warning(
+                f"前回の作成リクエストが送信されました。{30 - (time.time() - since_last_update):.1f}秒後に新しいキャラクターを作成してください"
+            )
+        elif lang == "ko":
+            gr.Warning(
+                f"이전 생성 요청이 제출되었습니다. {30 - (time.time() - since_last_update):.1f}초 후에 새 캐릭터를 만들어주세요"
+            )
+        return avatar, name, emotion, tags, gender, audio_data, since_last_update
     updates = {}
+    for field, value in [
+        ("avatar", avatar),
+        ("name", name),
+        ("emotion", emotion),
+        ("tags", tags),
+        ("gender", gender),
+        ("audio_data", audio_data),
+    ]:
         if field in ["avatar", "audio_data"]:
             if value is None or (isinstance(value, np.ndarray) and value.size == 0):
                 updates[field] = gr.update(value=None)
         elif value == "":
             updates[field] = gr.update(value="")
     if updates:
         if lang == "zh":
             gr.Warning("请填写完整信息")
             gr.Warning("すべての情報を入力してください")
         elif lang == "ko":
             gr.Warning("모든 정보를 입력하세요")
+        return tuple(
+            [updates.get(field, gr.update())
+            for field in ["avatar", "name", "emotion", "tags", "gender", "audio_data"]] + [since_last_update]
+        )
     duration = len(audio_data[1]) / audio_data[0]
     if duration < 3.2 or duration > 8:
         if lang == "zh":
             gr.Warning("音声の長さは3.2秒から8秒の間にしてください")
         elif lang == "ko":
             gr.Warning("음성 길이는 3.2초에서 8초 사이로 설정해야 합니다")
+        return avatar, name, emotion, tags, gender, audio_data, since_last_update
     await generate_voice(avatar, name, emotion, tags, gender, audio_data, lang)
     if lang == "zh":
+        gr.Info("创建成功，您创建的语音将在审核后上线", duration=20)
     elif lang == "en":
+        gr.Info(
+            "Creation successful. The voice you created will be available after review.",
+            duration=20,
+        )
     elif lang == "ja":
+        gr.Info(
+            "作成が完了しました。作成された音声は審査後に公開されます。", duration=20
+        )
     elif lang == "ko":
+        gr.Info(
+            "생성 완료. 귀하가 생성한 음성은 검토 후 공개될 예정입니다.", duration=20
+        )
+    return tuple([gr.update(value=None) for _ in range(6)] + [since_last_update])  # 6个更新项
 head = """
 <title>Free Online Text to Speech (TTS) | Convert Text to Audio</title>
                 pass
         with gr.Tab(gettext("Create Voice")):
+            since_last_update = gr.State(None)
             gr.Markdown(gettext("Note"))
             with gr.Row():
+                avatar = gr.Image(
+                    label=gettext("Avatar"),
+                    interactive=True,
+                    type="pil",
+                    image_mode="RGBA",
+                )
                 with gr.Column():
                     with gr.Row():
                         name = gr.Textbox(
                             label=gettext("Name"), interactive=True, max_lines=1
                         )
                         emotion = gr.Textbox(
+                            label=gettext("Emotion\n(Happy, Sad, Angry)"),
+                            interactive=True,
+                            max_lines=1,
                         )
                         tags = gr.Textbox(
+                            label=gettext("Tags\n(Genshin, Cute, Girl, Boy, etc.)"),
+                            interactive=True,
+                            max_lines=1,
                         )
                         gender = gr.Dropdown(
                             label=gettext("Gender"),
                             ],
                             interactive=True,
                         )
+                    audio_data = gr.Audio(
+                        label=gettext("Prompt Audio(min 3.2s, max 8s)"),
+                        interactive=True,
+                    )
+                    create_button = gr.Button(
+                        gettext("Create Voice"), variant="primary"
+                    )
         gr.Markdown(gettext(terms))
         # -------------- 绑定事件 --------------
             inputs=[lang, category],
             outputs=[all_characters_state, characters, gallery, category, kind],
         )
+        demo.load(
+            update_all_characters,
+            inputs=[lang, category],
+            outputs=[all_characters_state, characters, gallery, category, kind],
+        )
         add_voice_button.click(
             fn=add_new_voice,
         create_button.click(
             fn=create_voice,
+            inputs=[
+                avatar,
+                name,
+                emotion,
+                tags,
+                gender,
+                audio_data,
+                lang,
+                since_last_update,
+            ],
+            outputs=[
+                avatar,
+                name,
+                emotion,
+                tags,
+                gender,
+                audio_data,
+                since_last_update,
+            ],
         )