Spaces:

sbenfenatti
/

sintonIA

Sleeping

App Files Files Community

sbenfenatti commited on Jul 12

Commit

d8621a7

verified ·

1 Parent(s): f58a75c

Upload 6 files

Browse files

Files changed (5) hide show

Dockerfile +11 -5
app.py +136 -300
download_model.py +3 -2
index.html +38 -9
requirements.txt +4 -4

Dockerfile CHANGED Viewed

@@ -8,13 +8,19 @@ WORKDIR /code
 RUN apt-get update && apt-get install -y --no-install-recommends \
     build-essential \
     pkg-config \
-    ffmpeg && \
     rm -rf /var/lib/apt/lists/*
 # Atualiza o pip para a versão mais recente.
 RUN pip install --no-cache-dir --upgrade pip
-# Copia e instala todas as dependências do Python.
 COPY ./requirements.txt /code/requirements.txt
 RUN pip install --no-cache-dir -r /code/requirements.txt
@@ -35,6 +41,6 @@ RUN chown -R 1000:1000 /code/models_cache
 # Expõe a porta que a aplicação irá usar.
 EXPOSE 7860
-# --- COMANDO FINAL E ROBUSTO ---
-# Inicia a aplicação FastAPI diretamente com o servidor Uvicorn.
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

 RUN apt-get update && apt-get install -y --no-install-recommends \
     build-essential \
     pkg-config \
+    ffmpeg \
+    libavcodec-dev \
+    libavformat-dev \
+    libswscale-dev \
+    libavdevice-dev \
+    libavfilter-dev \
+    libswresample-dev && \
     rm -rf /var/lib/apt/lists/*
 # Atualiza o pip para a versão mais recente.
 RUN pip install --no-cache-dir --upgrade pip
+# Copia e instala todas as dependências do Python de uma só vez.
 COPY ./requirements.txt /code/requirements.txt
 RUN pip install --no-cache-dir -r /code/requirements.txt
 # Expõe a porta que a aplicação irá usar.
 EXPOSE 7860
+# --- CORREÇÃO DEFINITIVA ---
+# Comando para iniciar a aplicação com Gunicorn, apontando para o adaptador asgi_app.
+CMD ["gunicorn", "--bind", "0.0.0.0:7860", "--workers", "1", "--worker-class", "uvicorn.workers.UvicornWorker", "app:asgi_app"]

app.py CHANGED Viewed

@@ -1,306 +1,142 @@
 import os, io, base64, tempfile, logging, json, asyncio
-from fastapi import FastAPI, File, UploadFile, Form, HTTPException
-from fastapi.responses import FileResponse, JSONResponse
-from dotenv import load
-dotenv
-_
-from faster
-_
-whisper import WhisperModel
 import google.generativeai as genai
-import edge
-tts
-_
 # ---------- Configuração Inicial ----------
-load
-dotenv()
-_
-CACHE
-_
-DIR = os.getenv("HF
-HUB
-CACHE"
-,
-"
-./models
-_
-_
-os.environ["MPLCONFIGDIR"] = os.path.join(CACHE
-_
-cache")
-_
-DIR,
-"matplotlib")
-LOGIN
-_
-PASSWORDS = os.getenv("LOGIN
-_
-GOOGLE
-API
-_
-_
-KEY = os.getenv("GOOGLE
-_
-_
-PASSWORDS")
-API
-KEY")
-# ---------- Aplicação FastAPI ----------
-app = FastAPI()
-logging.basicConfig(level=logging.INFO, format=
-"%(asctime)s - %(levelname)s -
-%(message)s")
-# ---------- Carregamento de Modelos (no arranque) ----------
-whisper
-model = None
-_
-gemini
-model = None
-_
-@app.on
-_
-event("startup")
-def load
-models():
-_
-global whisper
-_
-model, gemini
-model
-_
-logging.info("A carregar modelos e clientes de API...
-")
 try:
-model
-name =
-"medium"
-_
-whisper
-_
-model = WhisperModel(model
-name, device=
-_
-"cpu"
-,
-compute
-_
-type=
-"int8")
-logging.info(f"Modelo faster-whisper '{model
-_
-name}' (int8) pronto.
-")
 except Exception as e:
-logging.error(f"Falha ao iniciar o modelo faster-whisper: {e}")
-raise RuntimeError("Não foi possível carregar o modelo Whisper.
-") from e
-if GOOGLE
-API
-KEY:
-_
-_
-try:
-genai.configure(api
-_
-key=GOOGLE
-API
-KEY)
-_
-_
-gemini
-_
-model = genai.GenerativeModel("gemini-1.5-flash")
-logging.info("Gemini pronto.
-")
-except Exception as e:
-logging.error(f"Falha ao iniciar Gemini: {e}")
-raise RuntimeError("Não foi possível carregar o modelo Gemini.
-") from e
-logging.info("Modelos carregados com sucesso.
-")
-# ---------- Utilidades ----------
-def ask
-_gemini(question: str) -> str:
-if not gemini
-model:
-_
-raise HTTPException(status
-code=503, detail=
-_
-"Modelo de linguagem não está
-disponível.
-")
-prompt = ("Você é 'SintonIA'
-, um assistente de IA por voz para saúde bucal.
-"
-"Responda de forma empática, clara e segura, em 2-3 frases.
-"
-"NUNCA dê diagnóstico e sempre recomende consulta presencial a um
-dentista.
-")
-try:
-response = gemini
-_
-model.generate
-_
-content([prompt, question])
-return response.text
-except Exception as e:
-logging.error(f"Erro no Gemini: {e}")
-raise HTTPException(status
-code=500, detail=
-_
-"Erro ao gerar a resposta de IA.
-")
-VOICE =
-"pt-BR-AntonioNeural"
 async def synthesize(text: str) -> bytes | None:
-try:
-audio
-_
-bytes = b""
-communicate = edge
-tts.Communicate(text, VOICE)
-_
-async for chunk in communicate.stream():
-if chunk["type"] ==
-"audio":
-audio
-_
-bytes += chunk["data"]
-return audio
-_
-bytes
-except Exception as e:
-logging.error(f"Erro ao sintetizar áudio com Edge TTS: {e}")
-return None
-# ---------- Rotas (Endpoints) ----------
-@app.get("/")
-async def read
-index():
-_
-return FileResponse('index.html')
-@app.post("/login")
-async def login(request: dict):
-if not LOGIN
-PASSWORDS:
-_
-return {"success": True}
-valid
-_passwords = [p.strip() for p in LOGIN
-_
-PASSWORDS.split('
-,
-')]
-pwd
-_
-received = request.get("password"
-,
-"")
-is
-_
-ok = pwd
-received in valid
-_
-_passwords
-if not is
-ok:
-_
-raise HTTPException(status
-code=401, detail=
-"Senha incorreta.
-")
-_
-return {"success": True}
-@app.post("/process-audio")
-async def process
-_
-audio(audio: UploadFile = File(...)):
-if not all([whisper
-_
-model, gemini
-model]):
-_
-raise HTTPException(status
-code=503, detail=
-_
-"Um serviço de IA não está
-disponível.
-")
-try:
-with tempfile.NamedTemporaryFile(delete=True, suffix=
-"
-.webm") as tmp_
-file:
-content = await audio.read()
-tmp_
-file.write(content)
-tmp_
-file.seek(0)
-if os.path.getsize(tmp_
-file.name) > 1000:
-segments,
-_
-= whisper
-_
-model.transcribe(tmp_
-file.name, language=
-"pt")
-transcribed
-_parts = [segment.text for segment in segments]
-text =
-""
-.join(transcribed
-_parts).strip()
-logging.info(f"Texto transcrito: '{text}'")
-else:
-text =
-""
-except Exception as e:
-logging.error(f"Erro na transcrição do faster-whisper: {e}")
-text =
-""
-if not text:
-ai
-_
-else:
-ai
-text =
-_
-"Desculpe, não entendi o que foi dito. Você poderia repetir, por favor?"
-text = ask
-_gemini(text)
-audio
-_
-if ai
-text:
-_
-audio
-bytes = None
-_
-bytes = await synthesize(ai
-text)
-_
-# --- LÓGICA FINAL: Retorna um JSON com todos os dados ---
-return JSONResponse(content={
-"user
-_question": text,
-"ai
-answer": ai
-text,
-_
-_
-"audio
-base64": base64.b64encode(audio
-_
-_
-bytes).decode('utf-8') if audio
-_
-else None
-bytes
-})
-@app.get("/healthz")
-async def health
-check():
-_
-return {"status": "OK"}

 import os, io, base64, tempfile, logging, json, asyncio
+# Importa WhisperModel de faster_whisper
+from faster_whisper import WhisperModel
 import google.generativeai as genai
+from flask import Flask, request, jsonify, send_from_directory
+from flask_cors import CORS
+from dotenv import load_dotenv
+import edge_tts
+# --- NOVA IMPORTAÇÃO PARA O ADAPTADOR ---
+from asgiref.wsgi import WsgiToAsgi
 # ---------- Configuração Inicial ----------
+load_dotenv()
+CACHE_DIR = os.getenv("HF_HUB_CACHE", "./models_cache")
+os.environ["MPLCONFIGDIR"] = os.path.join(CACHE_DIR, "matplotlib")
+LOGIN_PASSWORDS = os.getenv("LOGIN_PASSWORDS")
+GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
+# ---------- servidor ----------
+app = Flask(__name__)
+CORS(app)
+logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
+logging.info("A carregar modelos e clientes de API...")
+# ---------- Modelos e Clientes de API ----------
+# --- Modelo Gemini ---
+gemini_model = None
+if GOOGLE_API_KEY:
+    try:
+        genai.configure(api_key=GOOGLE_API_KEY)
+        gemini_model = genai.GenerativeModel("gemini-1.5-flash")
+        logging.info("Gemini pronto.")
+    except Exception as e:
+        logging.error("Falha ao iniciar Gemini: %s", e)
+# --- Modelo Whisper (usando faster-whisper) ---
+whisper_model = None
 try:
+    model_name = "small"
+    whisper_model = WhisperModel(model_name, device="cpu", compute_type="int8")
+    logging.info(f"Modelo faster-whisper '{model_name}' (int8) pronto.")
 except Exception as e:
+    logging.error("Falha ao iniciar o modelo faster-whisper: %s", e)
+# ---------- utilidades ----------
+def ask_gemini(question: str) -> str:
+    if not gemini_model:
+        return "Desculpe, o modelo Gemini não está acessível no momento."
+    prompt = ("Você é 'SintonIA', um assistente de IA por voz para saúde bucal. "
+              "Responda de forma empática, clara e segura, em 2-3 frases. "
+              "NUNCA dê diagnóstico e sempre recomende consulta presencial a um dentista.")
+    try:
+        response = gemini_model.generate_content([prompt, question])
+        return response.text
+    except Exception as e:
+        logging.error("Erro no Gemini: %s", e)
+        return "Desculpe, ocorreu um erro ao gerar a resposta."
+# --- NOVA FUNÇÃO DE SÍNTESE COM EDGE TTS ---
+VOICE = "pt-BR-AntonioNeural"
 async def synthesize(text: str) -> bytes | None:
+    try:
+        audio_bytes = b""
+        communicate = edge_tts.Communicate(text, VOICE)
+        async for chunk in communicate.stream():
+            if chunk["type"] == "audio":
+                audio_bytes += chunk["data"]
+        logging.info(f"Áudio sintetizado com sucesso usando a voz: {VOICE}")
+        return audio_bytes
+    except Exception as e:
+        logging.error(f"Erro ao sintetizar áudio com Edge TTS: {e}")
+        return None
+# ---------- rotas ----------
+@app.route("/")
+def index():
+    return send_from_directory(".", "index.html")
+@app.route("/login", methods=["POST"])
+def login():
+    if not LOGIN_PASSWORDS:
+        return jsonify(success=True)
+    valid_passwords = [p.strip() for p in LOGIN_PASSWORDS.split(',')]
+    pwd_received = (request.json or {}).get("password", "")
+    is_ok = pwd_received in valid_passwords
+    return jsonify(success=is_ok), (200 if is_ok else 401)
+@app.route("/process-audio", methods=["POST"])
+async def process_audio():
+    if "audio" not in request.files:
+        return jsonify(error="Nenhum ficheiro de áudio enviado."), 400
+    if not all([whisper_model, gemini_model]):
+        return jsonify(error="Erro interno: um serviço de IA não está disponível."), 500
+    audio_file = request.files["audio"]
+    text = ""
+    with tempfile.NamedTemporaryFile(delete=True, suffix=".webm") as tmp_file:
+        audio_file.save(tmp_file.name)
+        try:
+            if os.path.getsize(tmp_file.name) > 1000:
+                segments, info = whisper_model.transcribe(tmp_file.name, language="pt")
+                transcribed_parts = [segment.text for segment in segments]
+                text = "".join(transcribed_parts).strip()
+                logging.info(f"Texto transcrito: '{text}'")
+            else:
+                text = ""
+        except Exception as e:
+            logging.error(f"Erro na transcrição do faster-whisper: {e}")
+            text = ""
+    ai_text = ""
+    audio_bytes = None
+    if not text:
+        ai_text = "Desculpe, não entendi o que foi dito. Você poderia repetir, por favor?"
+    else:
+        ai_text = ask_gemini(text)
+    if ai_text:
+        audio_bytes = await synthesize(ai_text)
+    return jsonify(
+        user_question=text,
+        ai_answer=ai_text,
+        audio_base64=base64.b64encode(audio_bytes).decode() if audio_bytes else None
+    )
+@app.route("/healthz")
+def health_check():
+    return "OK", 200
+# --- ADAPTADOR ASGI/WSGI PARA PRODUÇÃO ---
+# Esta linha cria uma versão "traduzida" da sua aplicação Flask
+# que é totalmente compatível com o servidor de produção ASGI.
+asgi_app = WsgiToAsgi(app)

download_model.py CHANGED Viewed

@@ -1,8 +1,8 @@
 # download_model.py
 from faster_whisper import WhisperModel
-# --- ALTERAÇÃO: Testando o modelo 'medium' para máxima precisão. ---
-MODEL_NAME = "medium"
 print(f"A descarregar e a fazer cache do modelo Whisper '{MODEL_NAME}' no formato CTranslate2...")
@@ -10,6 +10,7 @@ try:
     # Esta chamada é suficiente para descarregar o modelo, convertê-lo
     # para o formato CTranslate2 e salvá-lo no diretório de cache
     # definido pela variável de ambiente HF_HUB_CACHE.
     WhisperModel(
         MODEL_NAME,
         device="cpu",

 # download_model.py
 from faster_whisper import WhisperModel
+# Este script descarrega e converte o modelo durante o 'build' do Docker.
+MODEL_NAME = "small"
 print(f"A descarregar e a fazer cache do modelo Whisper '{MODEL_NAME}' no formato CTranslate2...")
     # Esta chamada é suficiente para descarregar o modelo, convertê-lo
     # para o formato CTranslate2 e salvá-lo no diretório de cache
     # definido pela variável de ambiente HF_HUB_CACHE.
+    # O teste de transcrição foi removido para tornar o build mais robusto.
     WhisperModel(
         MODEL_NAME,
         device="cpu",

index.html CHANGED Viewed

@@ -109,21 +109,25 @@
         let audioChunks = [];
         let isRecording = false;
         let audioPlayer = new Audio();
-        let isAudioContextUnlocked = false;
         // --- Inicialização ---
         lucide.createIcons();
-        // --- Lógica para "destravar" o áudio ---
         function primeAudioContext() {
             if (isAudioContextUnlocked) return;
             audioPlayer.src = "data:audio/mpeg;base64,SUQzBAAAAAABEVRYWFgAAAAtAAADY29tbWVudABCaXRyYXRlIHN1cHBseSBieSBiaXRyYXRlLmNvbQAAAABUY29uAAAAAABQaG9uZQAAAAA=";
             const playPromise = audioPlayer.play();
             if (playPromise !== undefined) {
                 playPromise.then(() => {
                     audioPlayer.pause();
                     isAudioContextUnlocked = true;
-                }).catch(error => console.error("Falha ao preparar o contexto de áudio:", error));
             }
         }
@@ -134,7 +138,9 @@
         });
         async function handleLogin() {
             primeAudioContext();
             const password = passwordInput.value;
             errorMessage.textContent = '';
             try {
@@ -151,6 +157,7 @@
                     errorMessage.textContent = 'Senha incorreta. Tente novamente.';
                 }
             } catch (error) {
                 errorMessage.textContent = 'Não foi possível conectar ao servidor.';
             }
         }
@@ -168,15 +175,29 @@
             audioChunks = [];
             try {
                 const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
                 const mimeType = MediaRecorder.isTypeSupported('audio/webm') ? 'audio/webm' : 'audio/mp4';
                 mediaRecorder = new MediaRecorder(stream, { mimeType });
-                mediaRecorder.ondataavailable = event => audioChunks.push(event.data);
                 mediaRecorder.onstop = sendAudioToServer;
                 mediaRecorder.start();
                 isRecording = true;
                 setButtonState('recording');
             } catch (error) {
-                addMessageToChat('Erro ao iniciar gravação: ' + error.message, "error");
                 setButtonState('idle');
             }
         }
@@ -189,9 +210,10 @@
             setButtonState('processing');
         }
-        // --- LÓGICA FINAL: Comunicação com o Servidor via JSON ---
         async function sendAudioToServer() {
             const audioBlob = new Blob(audioChunks, { type: mediaRecorder.mimeType });
             if (audioBlob.size < 1000) {
                 setButtonState('idle');
                 addMessageToChat('A gravação foi muito curta. Tente novamente.', 'error');
@@ -208,8 +230,8 @@
                     body: formData
                 });
                 if (!response.ok) {
-                    const errorData = await response.json().catch(() => ({ detail: response.statusText }));
-                    throw new Error(errorData.detail || `Erro do servidor: ${response.status}`);
                 }
                 const data = await response.json();
@@ -238,6 +260,7 @@
                 if (audioPlayer.src && audioPlayer.src.startsWith('blob:')) {
                     URL.revokeObjectURL(audioPlayer.src);
                 }
                 audioPlayer.src = URL.createObjectURL(audioBlob);
                 const playPromise = audioPlayer.play();
@@ -245,12 +268,18 @@
                     playPromise.then(() => {
                         setButtonState('speaking');
                     }).catch(error => {
                         addMessageToChat("Não foi possível reproduzir o áudio automaticamente.", 'error');
                         setButtonState('idle');
                     });
                 }
-                audioPlayer.onended = () => setButtonState('idle');
             } catch (error) {
                 addMessageToChat("Falha ao processar o áudio.", "error");
                 setButtonState('idle');
             }

         let audioChunks = [];
         let isRecording = false;
         let audioPlayer = new Audio();
+        let isAudioContextUnlocked = false; // --- CORREÇÃO: Variável de controle re-adicionada
         // --- Inicialização ---
         lucide.createIcons();
+        // --- CORREÇÃO: Lógica para "destravar" o áudio re-adicionada ---
         function primeAudioContext() {
             if (isAudioContextUnlocked) return;
+            // Toca um som silencioso para "acordar" o player de áudio do navegador.
             audioPlayer.src = "data:audio/mpeg;base64,SUQzBAAAAAABEVRYWFgAAAAtAAADY29tbWVudABCaXRyYXRlIHN1cHBseSBieSBiaXRyYXRlLmNvbQAAAABUY29uAAAAAABQaG9uZQAAAAA=";
             const playPromise = audioPlayer.play();
             if (playPromise !== undefined) {
                 playPromise.then(() => {
                     audioPlayer.pause();
                     isAudioContextUnlocked = true;
+                    console.log("Contexto de áudio desbloqueado e preparado.");
+                }).catch(error => {
+                    console.error("Falha ao preparar o contexto de áudio:", error);
+                });
             }
         }
         });
         async function handleLogin() {
+            // --- CORREÇÃO: Prepara o áudio no primeiro clique do usuário ---
             primeAudioContext();
             const password = passwordInput.value;
             errorMessage.textContent = '';
             try {
                     errorMessage.textContent = 'Senha incorreta. Tente novamente.';
                 }
             } catch (error) {
+                console.error('Erro de conexão:', error);
                 errorMessage.textContent = 'Não foi possível conectar ao servidor.';
             }
         }
             audioChunks = [];
             try {
                 const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
                 const mimeType = MediaRecorder.isTypeSupported('audio/webm') ? 'audio/webm' : 'audio/mp4';
                 mediaRecorder = new MediaRecorder(stream, { mimeType });
+                mediaRecorder.ondataavailable = event => {
+                    audioChunks.push(event.data);
+                };
                 mediaRecorder.onstop = sendAudioToServer;
                 mediaRecorder.start();
                 isRecording = true;
                 setButtonState('recording');
             } catch (error) {
+                console.error("ERRO AO INICIAR GRAVAÇÃO:", error.name, error.message);
+                let userMessage = 'Ocorreu um erro ao tentar aceder ao microfone. Verifique as permissões.';
+                if (error.name === 'NotAllowedError') {
+                    userMessage = 'A permissão para usar o microfone foi negada. Por favor, habilite nas configurações do seu navegador.';
+                } else if (error.name === 'NotFoundError') {
+                     userMessage = 'Nenhum microfone foi encontrado no seu dispositivo.';
+                }
+                addMessageToChat(userMessage, "error");
                 setButtonState('idle');
             }
         }
             setButtonState('processing');
         }
+        // --- Comunicação com o Servidor ---
         async function sendAudioToServer() {
             const audioBlob = new Blob(audioChunks, { type: mediaRecorder.mimeType });
             if (audioBlob.size < 1000) {
                 setButtonState('idle');
                 addMessageToChat('A gravação foi muito curta. Tente novamente.', 'error');
                     body: formData
                 });
                 if (!response.ok) {
+                    const errorData = await response.json();
+                    throw new Error(errorData.error || `Erro do servidor: ${response.statusText}`);
                 }
                 const data = await response.json();
                 if (audioPlayer.src && audioPlayer.src.startsWith('blob:')) {
                     URL.revokeObjectURL(audioPlayer.src);
                 }
                 audioPlayer.src = URL.createObjectURL(audioBlob);
                 const playPromise = audioPlayer.play();
                     playPromise.then(() => {
                         setButtonState('speaking');
                     }).catch(error => {
+                        console.error("Falha na reprodução automática:", error);
                         addMessageToChat("Não foi possível reproduzir o áudio automaticamente.", 'error');
                         setButtonState('idle');
                     });
                 }
+                audioPlayer.onended = () => {
+                    setButtonState('idle');
+                };
             } catch (error) {
+                console.error("Erro ao decodificar o áudio:", error);
                 addMessageToChat("Falha ao processar o áudio.", "error");
                 setButtonState('idle');
             }

requirements.txt CHANGED Viewed

@@ -1,9 +1,9 @@
-fastapi
-uvicorn
-python-multipart
 python-dotenv
 faster-whisper
 ctranslate2
 google-generativeai
 edge-tts
-gunicorn

+Flask[async]
+Flask-Cors
 python-dotenv
 faster-whisper
 ctranslate2
 google-generativeai
+gunicorn
 edge-tts
+uvicorn