Pdro-ruiz's picture
Update README.md
1b4524f verified

A newer version of the Gradio SDK is available: 5.29.0

Upgrade
metadata
title: MLLM Benchmark
emoji: 📊
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.20.0
app_file: app.py
pinned: false

license: cc-by-4.0

Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)

© 2025 Pedro Ismael Ruiz.
Este trabajo está licenciado bajo Creative Commons Attribution 4.0 International (CC BY 4.0). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.

Portada

Este repositorio recopila dos recursos fundamentales, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la multimodalidad aplicada a modelos de lenguaje grandes. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:

  • Multimodality in Large Language Models:
    Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan avances, tendencias, desafíos, benchmarks y se incluyen referencias de gran rigor técnico. (Con copia en Inglés para subirlo a arXiv)

  • Benchmark MLLM:
    Notebook Jupyter que complementa la investigación con análisis prácticos, código y visualizaciones. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como plataforma base para desarrollos futuros.

Contenido

1. Introducción y Contexto

  • Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.

2. Definición, Objetivos y Metodología

  • Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.

3. Estado del Arte y Benchmarks

  • Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).

4. Costes Computacionales y Desafíos

  • Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.

5. Implementaciones y Ecosistema Open-Source

  • Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.

6. Conclusiones y Perspectivas Futuras

  • Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.

Aviso Importante

Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.

Licencia

Este proyecto se distribuye bajo Creative Commons Attribution 4.0 International (CC BY 4.0). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.

Autor

Elaborado por Pedro Ismael Ruiz – 03/03/2025.

Contacto

Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de LinkedIn o envía un correo (si proporcionas una dirección).

Elaborado por Pedro Ismael Ruiz – 03/03/2025.