Spaces:

fastrtc
/

talk-to-gemini

Running on CPU Upgrade

App Files Files Community

freddyaboulton HF Staff commited on Feb 25

Commit

5da60bb

verified ·

1 Parent(s): 5e00de6

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +18 -24

app.py CHANGED Viewed

@@ -13,8 +13,8 @@ from fastapi.responses import HTMLResponse
 from fastrtc import (
     AsyncStreamHandler,
     Stream,
-    WebRTCError,
     get_twilio_turn_credentials,
 )
 from google import genai
 from google.genai.types import (
@@ -68,13 +68,12 @@ class GeminiHandler(AsyncStreamHandler):
             api_key, voice_name = self.latest_args[1:]
         else:
             api_key, voice_name = None, "Puck"
-        try:
-            client = genai.Client(
-                api_key=api_key or os.getenv("GEMINI_API_KEY"),
-                http_options={"api_version": "v1alpha"},
-            )
-        except Exception as e:
-            raise WebRTCError(str(e))
         config = LiveConnectConfig(
             response_modalities=["AUDIO"],  # type: ignore
             speech_config=SpeechConfig(
@@ -85,18 +84,15 @@ class GeminiHandler(AsyncStreamHandler):
                 )
             ),
         )
-        try:
-            async with client.aio.live.connect(
-                model="gemini-2.0-flash-exp", config=config
-            ) as session:
-                async for audio in session.start_stream(
-                    stream=self.stream(), mime_type="audio/pcm"
-                ):
-                    if audio.data:
-                        array = np.frombuffer(audio.data, dtype=np.int16)
-                        self.output_queue.put_nowait(array)
-        except Exception as e:
-            raise WebRTCError(str(e))
     async def stream(self) -> AsyncGenerator[bytes, None]:
         while not self.quit.is_set():
@@ -112,13 +108,11 @@ class GeminiHandler(AsyncStreamHandler):
         audio_message = encode_audio(array)
         self.input_queue.put_nowait(audio_message)
-    async def emit(self) -> tuple[int, np.ndarray]:
-        array = await self.output_queue.get()
-        return (self.output_sample_rate, array)
     def shutdown(self) -> None:
         self.quit.set()
-        self.args_set.clear()
 stream = Stream(

 from fastrtc import (
     AsyncStreamHandler,
     Stream,
     get_twilio_turn_credentials,
+    wait_for_item,
 )
 from google import genai
 from google.genai.types import (
             api_key, voice_name = self.latest_args[1:]
         else:
             api_key, voice_name = None, "Puck"
+        client = genai.Client(
+            api_key=api_key or os.getenv("GEMINI_API_KEY"),
+            http_options={"api_version": "v1alpha"},
+        )
         config = LiveConnectConfig(
             response_modalities=["AUDIO"],  # type: ignore
             speech_config=SpeechConfig(
                 )
             ),
         )
+        async with client.aio.live.connect(
+            model="gemini-2.0-flash-exp", config=config
+        ) as session:
+            async for audio in session.start_stream(
+                stream=self.stream(), mime_type="audio/pcm"
+            ):
+                if audio.data:
+                    array = np.frombuffer(audio.data, dtype=np.int16)
+                    self.output_queue.put_nowait((self.output_sample_rate, array))
     async def stream(self) -> AsyncGenerator[bytes, None]:
         while not self.quit.is_set():
         audio_message = encode_audio(array)
         self.input_queue.put_nowait(audio_message)
+    async def emit(self) -> tuple[int, np.ndarray] | None:
+        return await wait_for_item(self.output_queue)
     def shutdown(self) -> None:
         self.quit.set()
 stream = Stream(