Update README.md
Browse files
README.md
CHANGED
|
@@ -1,15 +1,28 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
| 4 |
-
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# GAIA Benchmark Agent
|
| 2 |
+
|
| 3 |
+
Este proyecto implementa un agente que responde preguntas del benchmark GAIA y envía los resultados al endpoint oficial para calcular el score.
|
| 4 |
+
|
| 5 |
+
## 🚀 Cómo usar este Space
|
| 6 |
+
|
| 7 |
+
1. **Pregunta manual**
|
| 8 |
+
- Escribe una pregunta en el cuadro de texto y haz clic en **Submit**.
|
| 9 |
+
- El agente responderá y mostrará un feedback simulado.
|
| 10 |
+
|
| 11 |
+
2. **Ejecutar todo el benchmark**
|
| 12 |
+
- Haz clic en **Run & Submit All**.
|
| 13 |
+
- El agente responderá todas las preguntas del benchmark y enviará las respuestas al servidor oficial.
|
| 14 |
+
- Verás el **score real**, el número de respuestas correctas y el mensaje del sistema.
|
| 15 |
+
|
| 16 |
+
## 📂 Estructura del proyecto
|
| 17 |
+
- `app.py`: Lógica principal del agente y la interfaz Gradio.
|
| 18 |
+
- `utils.py`: Funciones auxiliares para normalización y reformulación de prompts.
|
| 19 |
+
- `requirements.txt`: Dependencias necesarias para ejecutar el Space.
|
| 20 |
+
- `README.md`: Documentación del proyecto.
|
| 21 |
+
|
| 22 |
+
## ✅ Requisitos
|
| 23 |
+
- Python 3.9+
|
| 24 |
+
- Hugging Face Spaces
|
| 25 |
+
|
| 26 |
+
Instala las dependencias:
|
| 27 |
+
```bash
|
| 28 |
+
pip install -r requirements.txt
|