|
--- |
|
title: MLLM Benchmark |
|
emoji: 📊 |
|
colorFrom: blue |
|
colorTo: green |
|
sdk: gradio |
|
sdk_version: 5.20.0 |
|
app_file: app.py |
|
pinned: false |
|
--- |
|
|
|
--- |
|
license: cc-by-4.0 |
|
--- |
|
|
|
# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025) |
|
|
|
© 2025 Pedro Ismael Ruiz. |
|
Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original. |
|
|
|
<p align="center"> |
|
<img src="img/Readme.jpg" alt="Portada"> |
|
</p> |
|
|
|
Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos: |
|
|
|
- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):** |
|
Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))* |
|
|
|
- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):** |
|
Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_. |
|
|
|
## Contenido |
|
|
|
### 1. Introducción y Contexto |
|
- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales. |
|
|
|
### 2. Definición, Objetivos y Metodología |
|
- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información. |
|
|
|
### 3. Estado del Arte y Benchmarks |
|
- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench). |
|
|
|
### 4. Costes Computacionales y Desafíos |
|
- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales. |
|
|
|
### 5. Implementaciones y Ecosistema Open-Source |
|
- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo. |
|
|
|
### 6. Conclusiones y Perspectivas Futuras |
|
- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas. |
|
|
|
## Aviso Importante |
|
Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje. |
|
|
|
## Licencia |
|
Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original. |
|
|
|
## Autor |
|
Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025. |
|
|
|
## Contacto |
|
Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección). |
|
|
|
_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._ |