Apple ha presentado SlowFast-LLaVA-1.5, una nueva familia de modelos de lenguaje grande de video (Video-LLM) diseñados para comprender de manera eficiente videos de formato largo. En su artículo de investigación, Apple explica que la mayoría de los LLM de video existentes luchan con altos costos computacionales y un uso excesivo de tokens al analizar contenido de video extendido, lo que limita su capacidad de escalar. SlowFast-LLaVA-1.5 aborda esto introduciendo un marco eficiente en tokens que reduce la cantidad de tokens necesarios para representar video mientras mantiene la precisión.
La eficiencia de los tokens es fundamental porque cada fotograma de un vídeo debe convertirse en tokens antes de que un LLM pueda procesarlo. Con videos de formato largo, la cantidad de tokens rápidamente se vuelve inmanejable, lo que aumenta los costos y ralentiza el rendimiento. El enfoque de Apple comprime los datos de vídeo para que se utilicen menos tokens sin perder un contexto importante. Al combinar esto con una arquitectura de vía dual, donde una vía “lenta” captura patrones a largo plazo y una vía “rápida” se centra en detalles a corto plazo, el modelo puede equilibrar la comprensión con la eficiencia. Esto le permite rastrear tanto historias generales como acciones detalladas en secuencias extendidas.

El sistema también es altamente escalable, lo que significa que puede expandirse para manejar videos mucho más largos y conjuntos de datos más grandes sin sobrecargar los recursos informáticos. Los modelos tradicionales se vuelven poco prácticos a medida que aumenta la duración de la entrada, pero el diseño de Apple garantiza que el escalado de clips cortos a metraje de varias horas siga siendo factible. Esto hace que SlowFast-LLaVA-1.5 sea adecuado para tareas como respuesta a preguntas en vídeo, razonamiento temporal, resúmenes y recuperación de contenido en archivos de vídeo largos.
En las pruebas comparativas, Apple informa que el modelo logra resultados sólidos en conjuntos de datos como Video-MME y LongVideoBench, mostrando una eficiencia y comprensión mejoradas en comparación con enfoques anteriores. La investigación también presenta múltiples tamaños de modelos, incluidas las versiones de parámetros 1.5B, 7B y 13B, que están ajustadas a las instrucciones para seguir indicaciones del lenguaje natural. Esto permite que el sistema genere respuestas detalladas sobre contenido de video complejo, lo que lo hace aplicable para análisis de videos educativos, resúmenes de reuniones y herramientas de accesibilidad que crean subtítulos o transcripciones con capacidad de búsqueda.
Leer más:TikTok adopta contenido de formato largo con cargas de videos de 60 minutos
Apple enfatiza que el diseño escalable y eficiente en tokens no se trata solo de novedad en la investigación sino también de practicidad. Al reducir los requisitos computacionales y al mismo tiempo ampliar la capacidad, el modelo allana el camino para integrar la comprensión de videos de formato largo en productos del mundo real. A medida que el vídeo sigue dominando el entretenimiento, la educación y la comunicación profesional, el LLM de vídeo de larga duración de Apple representa un paso importante para hacer que la IA multimodal avanzada sea utilizable y accesible.
Mira el documento completoaquí.
