A OpenAI introduziu o GPT-OSS, uma nova família de modelos de linguagem pequenos e abertos projetados para a comunidade de código aberto. Esses modelos são otimizados para eficiência, velocidade e ampla compatibilidade com uma variedade de hardware, tornando-os ideais para desenvolvedores e pesquisadores que desejam ferramentas de IA personalizáveis sem depender de infraestrutura em grande escala.
O GPT-OSS está sendo lançado em três tamanhos de modelo: 120 milhões, 410 milhões e 1,1 bilhão de parâmetros. Cada versão é ajustada às instruções e oferece suporte a vários idiomas. Esses modelos são menores que o GPT-3.5 e o GPT-4, mas foram projetados para fornecer desempenho rápido em dispositivos de borda e funcionar bem em ambientes off-line ou restritos. Apesar do seu pequeno tamanho, os modelos demonstram resultados sólidos em uma variedade de benchmarks, incluindo MMLU e GSM8K.
O objetivo do GPT-OSS é oferecer uma alternativa leve e flexível para modelos maiores, especialmente em casos de uso onde baixa latência, interpretabilidade ou eficiência energética são priorizadas. Os modelos também pretendem servir como bases sólidas para pesquisas acadêmicas ou experimentos de ajuste fino. A OpenAI afirma que comparou o GPT-OSS com modelos de peso aberto comparáveis e descobriu que eles são competitivos em tarefas linguísticas gerais.
Ao contrário do ChatGPT ou GPT-4, os modelos GPT-OSS não estão conectados ao ecossistema OpenAI mais amplo. Não há integração de API nativa, memória ou suporte de navegação. Em vez disso, eles são lançados com uma licença aberta e estão disponíveis no GitHub e no Hugging Face, dando aos desenvolvedores controle total sobre implantação, personalização e uso local. Os pesos vêm com cartões modelo e métricas de avaliação para transparência.
Leia também:O modelo de IA de código aberto da China ‘Goku’ desafia o domínio dos EUA
O lançamento do GPT-OSS pela OpenAI ocorre em um momento em que modelos leves estão ganhando popularidade para aplicativos em dispositivos e implantações privadas. Com o aumento do interesse em modelos abertos e a necessidade de pesquisas reproduzíveis, o GPT-OSS adiciona um novo ponto de entrada para aqueles que buscam LLMs de menor escala com a confiabilidade da infraestrutura de treinamento da OpenAI. A empresa enfatizou que esses modelos não foram treinados com dados privados de usuários e que as avaliações de segurança foram documentadas nos cartões dos modelos.
Embora o GPT-OSS não rivalize com o GPT-4 em raciocínio ou qualidade de bate-papo multiturno, sua acessibilidade, relação desempenho/tamanho e facilidade de experimentação fazem dele uma contribuição valiosa para o ecossistema de modelos de peso aberto. Os desenvolvedores agora podem construir com GPT-OSS localmente, ajustá-lo para domínios específicos ou usá-lo como uma plataforma de teste para pesquisa de arquitetura.
