OpenAI ha introdotto GPT-OSS, una nuova famiglia di modelli linguistici piccoli e open-weight progettati per la comunità open source. Questi modelli sono ottimizzati per efficienza, velocità e ampia compatibilità con un'ampia gamma di hardware, rendendoli ideali per sviluppatori e ricercatori che desiderano strumenti di intelligenza artificiale personalizzabili senza fare affidamento su infrastrutture su larga scala.
GPT-OSS viene rilasciato in tre dimensioni di modello: 120 milioni, 410 milioni e 1,1 miliardi di parametri. Ogni versione è ottimizzata per le istruzioni e supporta più lingue. Questi modelli sono più piccoli di GPT-3.5 e GPT-4 ma sono progettati per fornire prestazioni veloci sui dispositivi edge e funzionare bene in ambienti offline o limitati. Nonostante le loro piccole dimensioni, i modelli dimostrano ottimi risultati su una varietà di benchmark, tra cui MMLU e GSM8K.
L'obiettivo di GPT-OSS è offrire un'alternativa leggera e flessibile ai modelli più grandi, soprattutto nei casi d'uso in cui viene data priorità alla bassa latenza, all'interpretabilità o all'efficienza energetica. I modelli sono inoltre destinati a fungere da solide linee di base per la ricerca accademica o per esperimenti di perfezionamento. OpenAI afferma di aver confrontato GPT-OSS con modelli comparabili a peso aperto e di averli trovati competitivi nelle attività linguistiche generali.
A differenza di ChatGPT o GPT-4, i modelli GPT-OSS non sono collegati al più ampio ecosistema OpenAI. Non sono disponibili integrazione API nativa, memoria o supporto per la navigazione. Vengono invece rilasciati con una licenza open-weight e disponibili su GitHub e Hugging Face, offrendo agli sviluppatori il pieno controllo su distribuzione, personalizzazione e utilizzo locale. I pesi vengono forniti con schede modello e metriche di valutazione per la trasparenza.
Leggi anche:Il modello cinese di intelligenza artificiale open source “Goku” sfida il dominio degli Stati Uniti
Il rilascio di GPT-OSS da parte di OpenAI arriva in un momento in cui i modelli leggeri stanno guadagnando popolarità per le applicazioni su dispositivo e le distribuzioni private. Con un crescente interesse per i modelli a peso aperto e la necessità di una ricerca riproducibile, GPT-OSS aggiunge un nuovo punto di ingresso per coloro che cercano LLM su scala ridotta con l’affidabilità dell’infrastruttura di formazione di OpenAI. L'azienda ha sottolineato che questi modelli non sono stati addestrati utilizzando dati privati degli utenti e che le valutazioni della sicurezza sono state documentate nelle schede modello.
Sebbene GPT-OSS non rivaleggia con GPT-4 in termini di ragionamento o qualità della chat multiturn, la sua accessibilità, il rapporto prestazioni/dimensioni e la facilità di sperimentazione lo rendono un prezioso contributo all'ecosistema dei modelli open-weight. Gli sviluppatori possono ora creare con GPT-OSS localmente, perfezionarlo per domini specifici o utilizzarlo come banco di prova per la ricerca sull'architettura.
