La francese Mistral AI ha svelato il suo nuovo modello linguistico di grandi dimensioni (LLM) Mistral 7B. L’intelligenza artificiale non è solo americana o cinese.
Intelligenza artificiale generativa… sempre di più
L’IA generativa, in particolare i modelli linguistici di grandi dimensioni (LLM), sta rivoluzionando la creazione di contenuti, il reperimento di conoscenze e la risoluzione di problemi. Lo sta facendo generando testi, contenuti e comandi di qualità umana sulla base di istruzioni umane. Nei prossimi anni, l’IA generativa ridefinirà completamente la nostra cultura e la nostra vita, il modo in cui interagiamo con le macchine e con amici e conoscenti.
Come nelle precedenti epoche del software, le soluzioni proprietarie sono state sviluppate per prime e hanno rivelato al mondo la potenza dei modelli generativi. Tuttavia, come nel caso del Web, dei browser web (Webkit), dei sistemi operativi (Linux), dell’orchestrazione cloud (Kubernetes), le soluzioni aperte supereranno rapidamente quelle proprietarie per la maggior parte dei casi d’uso. Saranno guidate dal potere della comunità e dal requisito di eccellenza tecnica che i progetti open-source di successo hanno sempre promosso.
L’intelligenza artificiale generativa ha bisogno di modelli aperti
Lavorare con modelli aperti è il modo migliore, sia per i fornitori che per gli utenti, per costruire un business sostenibile attorno alle soluzioni di IA. I modelli aperti possono essere finemente adattati per risolvere molti nuovi problemi di core business, in tutti i settori verticali, in modo ineguagliabile dai modelli black-box. Il futuro sarà fatto di molti diversi modelli specializzati, ciascuno adattato a compiti specifici, compressi il più possibile e collegati a modalità specifiche.
Nel paradigma del modello aperto, lo sviluppatore ha il pieno controllo sul motore che alimenta la sua applicazione. Le dimensioni e i costi del modello possono essere adattati alla difficoltà di un compito specifico. Questo, ovviamente, per tenere sotto controllo i costi e la latenza. Per le aziende, l’implementazione di modelli aperti sulla propria infrastruttura utilizzando soluzioni ben confezionate semplifica le dipendenze e preserva la privacy dei dati.
Le API chiuse e opache introducono invece responsabilità tecniche ben note, in particolare rischi di perdita di proprietà intellettuale. Nel caso dell’IA generativa, introducono anche una responsabilità culturale, poiché il contenuto generato è completamente sotto il controllo del fornitore di API, con capacità di personalizzazione limitate.
I modelli aperti saranno anche una preziosa salvaguardia contro l’uso improprio dell’intelligenza artificiale generativa. Permetteranno alle istituzioni pubbliche e alle aziende private di controllare i sistemi generativi alla ricerca di difetti, e di individuare l’uso improprio dei modelli generativi. Sono la nostra scommessa più forte per individuare efficacemente i contenuti di disinformazione, la cui quantità aumenterà inevitabilmente nei prossimi anni (cosa che, purtroppo, sta già succedendo).
Di che cosa si tratta, quindi?
Mistral-7B-v0.1 è un modello piccolo ma potente, adattabile a molti casi d’uso. Mistral 7B è migliore di Llama 2 13B in tutti i benchmark, ha capacità di codifica naturale e una lunghezza di sequenza di 8k. È rilasciato sotto licenza Apache 2.0 ed è stato reso facile da distribuire su qualsiasi cloud.
Llama 2 è una collezione di modelli generativi di testo pre-addestrati e messi a punto, con una scala che va da 7 a 70 miliardi di parametri, di proprietà di Meta, la casa madre di Facebook e Instagram
Mistral 7B (7B sta per 7 miliardi di parametri) supera tutti i modelli aperti attualmente disponibili fino a 13B di parametri su tutti i benchmark standard in inglese e in codice.
Prestazioni fuori dal comune, e all’avanguardia
Le prestazioni di Mistral 7B dimostrano cosa possono fare i piccoli modelli, se ci si lavora con sufficiente convinzione. Il monitoraggio dei modelli più piccoli che hanno ottenuto prestazioni superiori al 60% su MMLU è molto istruttivo: in due anni, si è passati da Gopher (280B, DeepMind. 2021), a Chinchilla (70B, DeepMind, 2022), a Llama 2 (34B, Meta, luglio 2023) e a Mistral 7B.
MMLU (Massive Multitask Language Understanding) è un nuovo benchmark progettato per misurare le conoscenze acquisite durante il preaddestramento, valutando i modelli esclusivamente in impostazioni a zero e a pochi colpi. Questo rende il benchmark più impegnativo e più simile a come valutiamo gli esseri umani. Il benchmark copre 57 materie tra STEM, scienze umane, scienze sociali e altro. Il livello di difficoltà varia da un livello elementare a un livello professionale avanzato, e verifica sia la conoscenza del mondo che la capacità di risolvere i problemi. Le materie spaziano da aree tradizionali, come la matematica e la storia, ad aree più specialistiche come la legge e l’etica. La granularità e l’ampiezza delle materie rendono il benchmark ideale per identificare i punti deboli di un modello.
Mistral 7B è solo un primo passo su una ideale tabella di marcia futura. Tuttavia, può essere utilizzato per risolvere molti compiti: riassunto, strutturazione e risposta alle domande, per citarne alcuni. Elabora e genera testo molto più velocemente delle grandi soluzioni proprietarie, e funziona a una frazione dei loro costi.
Mistral 7B è rilasciato, come detto, in Apache 2.0, il che lo rende utilizzabile senza restrizioni ovunque.
Un po’ di Italia in Mistral 7B
Mistral 7B non è un progetto improvvisato. Al contrario. Si tratta di un progetto articolato e maturo, che ha richiesto un lungo e attento lavoro di fine tuning. Il modello LLM è stato sviluppato in collaborazione con il consorzio CINECA/EuroHPC, che ha sede in Italia, e che ha fornito risorse e supporto. Gli sviluppatori di Mistral AI (la societù francese che ha sviluppato Mistral 7B) ringraziano anche gli operatori del supercomputer Leonardo (che si trova a Bologna) per il loro contributo.