Spaces:

wedyanessam
/

Real_Time_Interactive_Avatar_v2

Runtime error

App Files Files Community

wedyanessam commited on May 27

Commit

3402d0b

verified ·

1 Parent(s): a073983

Update app.py

Browse files

Files changed (1) hide show

app.py +77 -15

app.py CHANGED Viewed

@@ -2,27 +2,89 @@ import gradio as gr
 from STT.sst import speech_to_text
 from LLM.llm import generate_reply
 from TTS_X.tts import generate_voice
-import download_models
-def process(audio):
-    user_text = speech_to_text(audio)
     reply = generate_reply(user_text)
-    reply_audio = generate_voice(reply)
-    return user_text, reply, reply_audio
-with gr.Blocks() as demo:
-    gr.Markdown("## 🗣️➡️💬➡️🔊 من صوتك إلى رد منطوق!")
-    audio_input = gr.Audio(label="🎤 ارفع صوتك", type="filepath")
-    user_text = gr.Textbox(label="📜 النص المسموع")
-    reply_text = gr.Textbox(label="🤖 رد المساعد")
-    reply_audio = gr.Audio(label="🔊 الرد بالصوت")
-    btn = gr.Button("ابدأ")
-    btn.click(process, inputs=audio_input, outputs=[user_text, reply_text, reply_audio])
-demo.launch()

 from STT.sst import speech_to_text
 from LLM.llm import generate_reply
 from TTS_X.tts import generate_voice
+from fantasy_talking.infer import load_models, main
+from pathlib import Path
+import argparse
+# Load FantasyTalking models
+pipe, fantasytalking, wav2vec_processor, wav2vec = load_models(
+    argparse.Namespace(
+        wan_model_dir="./models/Wan2.1-I2V-14B-720P",
+        fantasytalking_model_path="./models/fantasytalking_model.ckpt",
+        wav2vec_model_dir="./models/wav2vec2-base-960h",
+        image_path="",
+        audio_path="",
+        prompt="",
+        output_dir="./output",
+        image_size=512,
+        audio_scale=1.0,
+        prompt_cfg_scale=5.0,
+        audio_cfg_scale=5.0,
+        max_num_frames=81,
+        inference_steps=20,
+        fps=23,
+        num_persistent_param_in_dit=None,
+        seed=1111
+    )
+)
+def generate_video(image_path, audio_path, prompt, output_dir):
+    args = argparse.Namespace(
+        wan_model_dir="./models/Wan2.1-I2V-14B-720P",
+        fantasytalking_model_path="./models/fantasytalking_model.ckpt",
+        wav2vec_model_dir="./models/wav2vec2-base-960h",
+        image_path=image_path,
+        audio_path=audio_path,
+        prompt=prompt,
+        output_dir=output_dir,
+        image_size=512,
+        audio_scale=1.0,
+        prompt_cfg_scale=5.0,
+        audio_cfg_scale=5.0,
+        max_num_frames=81,
+        inference_steps=20,
+        fps=23,
+        num_persistent_param_in_dit=None,
+        seed=1111
+    )
+    return main(args, pipe, fantasytalking, wav2vec_processor, wav2vec)
+def full_pipeline(user_audio, user_image):
+    user_text = speech_to_text(user_audio)
     reply = generate_reply(user_text)
+    reply_audio_path = generate_voice(reply)
+    # Generate video from reply voice + user image
+    output_dir = "./output"
+    Path(output_dir).mkdir(parents=True, exist_ok=True)
+    video_path = generate_video(
+        image_path=user_image,
+        audio_path=reply_audio_path,
+        prompt=reply,
+        output_dir=output_dir
+    )
+    return user_text, reply, reply_audio_path, video_path
+with gr.Blocks(title="🧠 صوتك يحرك صورة!") as demo:
+    gr.Markdown("## 🎤➡️💬➡️🔊➡️📽️ من صوتك إلى فيديو متكلم!")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(label="🎙️ ارفع صوتك", type="filepath")
+            image_input = gr.Image(label="🖼️ صورة المتحدث", type="filepath")
+            btn = gr.Button("🎬 شغل")
+        with gr.Column():
+            user_text = gr.Textbox(label="📝 النص المسموع")
+            reply_text = gr.Textbox(label="🤖 رد المساعد")
+            reply_audio = gr.Audio(label="🔊 الرد المنطوق")
+            video_output = gr.Video(label="📽️ الفيديو الناتج")
+    btn.click(fn=full_pipeline, inputs=[audio_input, image_input],
+              outputs=[user_text, reply_text, reply_audio, video_output])
+demo.launch(inbrowser=True, share=True)