Apple desenvolve LLM escalável para processar vídeo de formato longo

A Apple lançou o SlowFast-LLaVA-1.5, uma nova família de modelos de vídeo em linguagem grande (Video-LLMs) projetados para compreender com eficiência vídeos de formato longo. Em seu artigo de pesquisa, a Apple explica que a maioria dos LLMs de vídeo existentes lutam com altos custos computacionais e uso excessivo de tokens ao analisar conteúdo de vídeo estendido, o que limita sua capacidade de escala. SlowFast-LLaVA-1.5 resolve isso introduzindo uma estrutura com eficiência de tokens que reduz o número de tokens necessários para representar o vídeo, mantendo a precisão.

A eficiência do token é crítica porque cada quadro de um vídeo deve ser convertido em tokens antes que um LLM possa processá-lo. Com vídeos de formato longo, o número de tokens rapidamente se torna incontrolável, aumentando os custos e diminuindo o desempenho. A abordagem da Apple compacta dados de vídeo para que menos tokens sejam usados ​​sem perder contexto importante. Ao combinar isto com uma arquitetura de via dupla, onde uma via “lenta” captura padrões de longo prazo e uma via “rápida” se concentra em detalhes de curto prazo, o modelo pode equilibrar compreensão com eficiência. Isso permite rastrear enredos abrangentes e ações refinadas em sequências estendidas.

O sistema também é altamente escalável, o que significa que pode ser expandido para lidar com vídeos muito mais longos e conjuntos de dados maiores sem sobrecarregar os recursos de computação. Os modelos tradicionais tornam-se impraticáveis ​​à medida que a duração da entrada aumenta, mas o design da Apple garante que a escala de clipes curtos para filmagens de várias horas permaneça viável. Isso torna o SlowFast-LLaVA-1.5 adequado para tarefas como resposta a perguntas de vídeo, raciocínio temporal, resumo e recuperação de conteúdo em longos arquivos de vídeo.

Em testes de benchmark, a Apple relata que o modelo alcança resultados sólidos em conjuntos de dados como Video-MME e LongVideoBench, mostrando maior eficiência e compreensão em comparação com abordagens anteriores. A pesquisa também apresenta vários tamanhos de modelo, incluindo versões de parâmetros de 1,5B, 7B e 13B, que são ajustadas por instrução para seguir instruções de linguagem natural. Isso permite que o sistema gere respostas detalhadas sobre conteúdo de vídeo complexo, tornando-o aplicável para análise de vídeos educacionais, resumo de reuniões e ferramentas de acessibilidade que criam legendas ou transcrições pesquisáveis.

Leia mais:TikTok adota conteúdo longo com uploads de vídeos de 60 minutos

A Apple enfatiza que o design escalonável e eficiente em termos de tokens não se trata apenas de novidade em pesquisa, mas também de praticidade. Ao reduzir os requisitos computacionais e ao mesmo tempo expandir a capacidade, o modelo abre caminho para a integração da compreensão de vídeo de formato longo em produtos do mundo real. À medida que o vídeo continua a dominar o entretenimento, a educação e a comunicação profissional, o LLM de vídeo de formato longo da Apple representa um passo significativo para tornar a IA multimodal avançada utilizável e acessível.

Confira o artigo completoaqui.