Spaces:

wedyanessam
/

Real_Time_Interactive_Avatar_v2

Runtime error

App Files Files Community

wedyanessam commited on May 28

Commit

bad5ae3

verified ·

1 Parent(s): 93d986f

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -47

app.py CHANGED Viewed

@@ -5,34 +5,20 @@ import shutil
 from pathlib import Path
 import argparse
 import gradio as gr
-# ✅ التنظيف أولاً: فقط للمجلدات المؤقتة
-folders_to_delete = ["./output", "./__pycache__", "./.cache", "./temp"]
-for folder in folders_to_delete:
-    if os.path.exists(folder):
-        print(f"🗑️ حذف {folder}")
-        shutil.rmtree(folder)
-# ✅ طباعة حالة الذاكرة
-import psutil
-mem = psutil.virtual_memory()
-print(f"🔍 RAM المستخدمة: {mem.used / 1e9:.2f} GB / {mem.total / 1e9:.2f} GB")
-# ✅ تحميل الموديلات إذا ما كانت موجودة
 if not os.path.exists("./models/fantasytalking_model.ckpt"):
-    print("🛠️ جاري تحميل النماذج عبر download_models.py ...")
     subprocess.run(["python", "download_models.py"])
-# ✅ إعداد المسارات
-sys.path.append(os.path.abspath("."))
-# ✅ استيراد المكونات
-from STT.sst import speech_to_text
-from LLM.llm import generate_reply
-from TTS_X.tts import generate_voice
-from FantasyTalking.infer import load_models, main
-# ✅ ثابتات النموذج
 args_template = argparse.Namespace(
     fantasytalking_model_path="./models/fantasytalking_model.ckpt",
     wav2vec_model_dir="./models/wav2vec2-base-960h",
@@ -52,17 +38,13 @@ args_template = argparse.Namespace(
     seed=1111
 )
-# ✅ تحميل النماذج
-print("🚀 جاري تحميل FantasyTalking و Wav2Vec...")
 pipe, fantasytalking, wav2vec_processor, wav2vec = load_models(args_template)
-print("✅ تم التحميل!")
-# ✅ توليد فيديو
 def generate_video(image_path, audio_path, prompt, output_dir="./output"):
-    # انسخي args_template إلى dict عشان نعدل عليه بسهولة
     args_dict = vars(args_template).copy()
-    # نحدث فقط اللي نحتاجه
     args_dict.update({
         "image_path": image_path,
         "audio_path": audio_path,
@@ -70,23 +52,15 @@ def generate_video(image_path, audio_path, prompt, output_dir="./output"):
         "output_dir": output_dir
     })
-    # نحول من dict إلى argparse.Namespace
     args = argparse.Namespace(**args_dict)
     return main(args, pipe, fantasytalking, wav2vec_processor, wav2vec)
-# ✅ خط الأنابيب الكامل
 def full_pipeline(user_audio, user_image):
-    print("🎤 تحويل الصوت إلى نص...")
-    user_text = speech_to_text(user_audio)
-    print("💬 توليد الرد...")
     reply = generate_reply(user_text)
-    print("🔊 تحويل الرد إلى صوت...")
     reply_audio_path = generate_voice(reply)
-    print("📽️ توليد الفيديو...")
     Path("./output").mkdir(parents=True, exist_ok=True)
     video_path = generate_video(
         image_path=user_image,
@@ -96,24 +70,25 @@ def full_pipeline(user_audio, user_image):
     return user_text, reply, reply_audio_path, video_path
-# ✅ واجهة Gradio
-with gr.Blocks(title="🧠 صوتك يحرك صورة!") as demo:
-    gr.Markdown("## 🎤➡️💬➡️🔊➡️📽️ من صوتك إلى فيديو متكلم!")
     with gr.Row():
         with gr.Column():
-            audio_input = gr.Audio(label="🎙️ ارفع صوتك", type="filepath")
-            image_input = gr.Image(label="🖼️ صورة المتحدث", type="filepath")
-            btn = gr.Button("🎬 شغل")
         with gr.Column():
-            user_text = gr.Textbox(label="📝 النص المسموع")
-            reply_text = gr.Textbox(label="🤖 رد المساعد")
-            reply_audio = gr.Audio(label="🔊 الرد المنطوق")
-            video_output = gr.Video(label="📽️ الفيديو الناتج")
     btn.click(fn=full_pipeline,
               inputs=[audio_input, image_input],
               outputs=[user_text, reply_text, reply_audio, video_output])
 demo.launch(inbrowser=True, share=True)

 from pathlib import Path
 import argparse
 import gradio as gr
+from STT.sst import speech_to_text
+from LLM.llm import generate_reply
+from TTS_X.tts import generate_voice
+from FantasyTalking.infer import load_models, main
+# downloading of models if didn't exist
 if not os.path.exists("./models/fantasytalking_model.ckpt"):
     subprocess.run(["python", "download_models.py"])
 args_template = argparse.Namespace(
     fantasytalking_model_path="./models/fantasytalking_model.ckpt",
     wav2vec_model_dir="./models/wav2vec2-base-960h",
     seed=1111
 )
 pipe, fantasytalking, wav2vec_processor, wav2vec = load_models(args_template)
+print("✅")
 def generate_video(image_path, audio_path, prompt, output_dir="./output"):
     args_dict = vars(args_template).copy()
     args_dict.update({
         "image_path": image_path,
         "audio_path": audio_path,
         "output_dir": output_dir
     })
     args = argparse.Namespace(**args_dict)
     return main(args, pipe, fantasytalking, wav2vec_processor, wav2vec)
 def full_pipeline(user_audio, user_image):
+    user_text = speech_to_text(user_audio)
     reply = generate_reply(user_text)
     reply_audio_path = generate_voice(reply)
     Path("./output").mkdir(parents=True, exist_ok=True)
     video_path = generate_video(
         image_path=user_image,
     return user_text, reply, reply_audio_path, video_path
+with gr.Blocks() as demo:
+    gr.Markdown(" Realtime Interactive Avatar 🎭")
     with gr.Row():
         with gr.Column():
+            audio_input = gr.Audio(label="Upload Voice", type="filepath")
+            image_input = gr.Image(label="Upload Image", type="filepath")
+            btn = gr.Button("Generate")
         with gr.Column():
+            user_text = gr.Textbox(label="Transcribed Text (Speech to Text)")
+            reply_text = gr.Textbox(label="Assistant Response (LLM)")
+            reply_audio = gr.Audio(label="Spoken Response (Text to Speech)")
+            video_output = gr.Video(label="Final Generated Video")
     btn.click(fn=full_pipeline,
               inputs=[audio_input, image_input],
               outputs=[user_text, reply_text, reply_audio, video_output])
 demo.launch(inbrowser=True, share=True)