Spaces:

Jaward
/

Professor-AI-Feynman

Running

App Files Files Community

Jaward commited on May 1

Commit

3d31350

verified ·

1 Parent(s): f0c7d2d

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -45

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import re
 import gradio as gr
 import asyncio
 import logging
-import subprocess
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
@@ -20,6 +20,7 @@ import traceback
 import soundfile as sf
 import tempfile
 from pydub import AudioSegment
 # Set up logging
 logging.basicConfig(
@@ -35,7 +36,16 @@ logger = logging.getLogger(__name__)
 # Set up environment
 OUTPUT_DIR = "outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
-XTTS_MODEL_DIR = "XTTS-v2"
 # Define Pydantic model for slide data
 class Slide(BaseModel):
@@ -172,34 +182,17 @@ async def validate_and_convert_speaker_audio(speaker_audio):
         logger.error("Failed to validate or convert speaker audio %s: %s", speaker_audio, str(e))
         return None
-# Helper function to generate audio using XTTS-v2 CLI
 def generate_xtts_audio(text, speaker_wav, output_path):
     try:
-        cmd = [
-            "tts",
-            "--model_name", "tts_models/multilingual/multi-dataset/xtts_v2",
-            "--encoder_path", "model_se.pth.tar",
-            "--encoder_config", "config_se.json",
-            "--speaker_wav", speaker_wav,
-            "--text", text,
-            "--out_path", output_path,
-            "--language_idx", "en"
-        ]
-        logger.debug("Executing tts command: %s", " ".join(cmd))
-        result = subprocess.run(
-            cmd,
-            capture_output=True,
-            text=True,
-            input="y\n",  # Automatically provide 'y' to any download prompt
-            check=True
-        )
-        logger.info("tts command succeeded for %s: %s", output_path, result.stdout)
         return True
-    except subprocess.CalledProcessError as e:
-        logger.error("tts command failed for %s: %s\n%s", output_path, e.stderr, e.stdout)
-        return False
     except Exception as e:
-        logger.error("Unexpected error running tts for %s: %s", output_path, str(e))
         return False
 # Helper function to extract JSON from messages
@@ -288,9 +281,19 @@ def extract_json_from_message(message):
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
     pdf = MarkdownPdf()
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
         markdown_content = f"""
 <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; text-align: center; padding: 20px;">
 # {slide['title']}
@@ -300,6 +303,8 @@ def generate_slides_pdf(slides):
 {content_lines}
 </div>
 ---
 """
         pdf.add_section(Section(markdown_content, toc=False))
@@ -328,6 +333,15 @@ async def on_generate(api_service, api_key, serpapi_key, title, topic, instructi
         """
         return
     model_client = get_model_client(api_service, api_key)
     research_agent = AssistantAgent(
@@ -564,8 +578,7 @@ Example for 1 content slide:
         # Generate PDF from slides
         pdf_file = generate_slides_pdf(slides)
-        pdf_path = os.path.join(OUTPUT_DIR, pdf_file)
-        print(f"PDF file generated: {pdf_file}")
         audio_files = []
         speaker_audio = speaker_audio if speaker_audio else "feynman.mp3"
@@ -580,22 +593,6 @@ Example for 1 content slide:
             """
             return
-        # Verify XTTS-v2 model files
-        # required_files = [
-        #     os.path.join(XTTS_MODEL_DIR, "model_se.pth.tar"),
-        #     os.path.join(XTTS_MODEL_DIR, "config_se.json")
-        # ]
-        # for f in required_files:
-        #     if not os.path.exists(f):
-        #         logger.error("Missing XTTS-v2 model file: %s", f)
-        #         yield f"""
-        #         <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
-        #             <h2 style="color: #d9534f;">Missing XTTS-v2 model files</h2>
-        #             <p style="margin-top: 20px;">Please ensure XTTS-v2 is downloaded to {XTTS_MODEL_DIR} and try again.</p>
-        #         </div>
-        #         """
-        #         return
         # Process audio generation sequentially with retries
         for i, script in enumerate(scripts):
             cleaned_script = clean_script_text(script)
@@ -627,7 +624,7 @@ Example for 1 content slide:
                     success = generate_xtts_audio(current_text, validated_speaker_wav, audio_file)
                     if not success:
-                        raise RuntimeError("tts command failed")
                     logger.info("Generated audio for slide %d: %s", i + 1, audio_file)
                     audio_files.append(audio_file)

 import gradio as gr
 import asyncio
 import logging
+import torch
 from serpapi import GoogleSearch
 from pydantic import BaseModel
 from autogen_agentchat.agents import AssistantAgent
 import soundfile as sf
 import tempfile
 from pydub import AudioSegment
+from TTS.api import TTS
 # Set up logging
 logging.basicConfig(
 # Set up environment
 OUTPUT_DIR = "outputs"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
+os.environ["COQUI_TOS_AGREED"] = "1"
+# Initialize TTS model
+device = "cuda" if torch.cuda.is_available() else "cpu"
+try:
+    tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
+    logger.info("TTS model initialized on %s", device)
+except Exception as e:
+    logger.error("Failed to initialize TTS model: %s", str(e))
+    tts = None
 # Define Pydantic model for slide data
 class Slide(BaseModel):
         logger.error("Failed to validate or convert speaker audio %s: %s", speaker_audio, str(e))
         return None
+# Helper function to generate audio using Coqui TTS API
 def generate_xtts_audio(text, speaker_wav, output_path):
+    if not tts:
+        logger.error("TTS model not initialized")
+        return False
     try:
+        tts.tts_to_file(text=text, speaker_wav=speaker_wav, language="en", file_path=output_path)
+        logger.info("Generated audio for %s", output_path)
         return True
     except Exception as e:
+        logger.error("Failed to generate audio for %s: %s", output_path, str(e))
         return False
 # Helper function to extract JSON from messages
 # Function to generate Markdown and convert to PDF (landscape, centered)
 def generate_slides_pdf(slides):
     pdf = MarkdownPdf()
+    # Add LaTeX preamble for landscape orientation
+    preamble = r"""
+    \usepackage{pdflscape}
+    \newcommand{\blandscape}{\begin{landscape}}
+    \newcommand{\elandscape}{\end{landscape}}
+    """
+    pdf.set_preamble(preamble)
     for slide in slides:
         content_lines = slide['content'].replace('\n', '\n\n')
         markdown_content = f"""
+\\blandscape
 <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; text-align: center; padding: 20px;">
 # {slide['title']}
 {content_lines}
 </div>
+\\elandscape
 ---
 """
         pdf.add_section(Section(markdown_content, toc=False))
         """
         return
+    if not tts:
+        yield f"""
+        <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; height: 100%; min-height: 700px; padding: 20px; text-align: center; border: 1px solid #ddd; border-radius: 8px;">
+            <h2 style="color: #d9534f;">TTS model not initialized</h2>
+            <p style="margin-top: 20px;">Please ensure the Coqui TTS model is properly installed and try again.</p>
+        </div>
+        """
+        return
     model_client = get_model_client(api_service, api_key)
     research_agent = AssistantAgent(
         # Generate PDF from slides
         pdf_file = generate_slides_pdf(slides)
+        pdf_path = f"file://{os.path.abspath(pdf_file)}"
         audio_files = []
         speaker_audio = speaker_audio if speaker_audio else "feynman.mp3"
             """
             return
         # Process audio generation sequentially with retries
         for i, script in enumerate(scripts):
             cleaned_script = clean_script_text(script)
                     success = generate_xtts_audio(current_text, validated_speaker_wav, audio_file)
                     if not success:
+                        raise RuntimeError("TTS generation failed")
                     logger.info("Generated audio for slide %d: %s", i + 1, audio_file)
                     audio_files.append(audio_file)