Tech

Progetto Minerva, la Sapienza rivoluziona l’IA linguistica

di Redazione

2 minuti

Una nuova famiglia di modelli linguistici su larga scala (LLM, Large Language Model) addestrati alla lingua italiana. Parliamo del progetto Minerva, rilasciato dal gruppo di ricerca Sapienza NLP (Natural Language Processing), guidato da Roberto Navigli, professore ordinario presso il Dipartimento di Ingegneria informatica, automatica e gestionale della Sapienza Università di Roma.

Minerva segna un netto passo in avanti per l’IA made in Italy, ribadendo l’eccellenza italiana nel campo dell’IA generativa. A capo del progetto ci sono Roberto Navigli, vincitore di due prestigiosi grant ERC e fellow dell’ACL, l’associazione internazionale di linguistica computazionale, e due giovani brillanti ricercatori, Edoardo Barba e Simone Conia. 

Con una gamma di modelli che variano per dimensione e capacità computazionale e che possono contare su miliardi di parametri, il progetto Minerva vuole fornire fondamenta trasparenti per sistemi di intelligenza artificiale che siano applicabili in diversi campi, dalla comprensione del linguaggio naturale alla generazione di testo, dalla traduzione automatica all’assistenza clienti automatizzata. Questa flessibilità renderà i modelli Minerva una risorsa preziosa per ricercatori, aziende e sviluppatori interessati a sfruttare le potenzialità dell’intelligenza artificiale per migliorare efficienza e interazione.

“La caratteristica distintiva dei modelli Minerva è il fatto di essere stati costruiti e addestrati da zero usando testi ad accesso aperto, al contrario dei modelli italiani esistenti ad oggi, che sono basati sull’adattamento di modelli come LLaMA e Mistral, i cui dati di addestramento sono tuttora sconosciuti”, spiega Roberto Navigli. “Nello specifico, ogni modello Minerva è stato addestrato su un vasto insieme di fonti italiane e inglesi online e documentate, per un totale di oltre 500 miliardi di parole, l’equivalente di oltre 5 milioni di romanzi. Non solo la trasparenza nell’addestramento dei modelli rafforza la fiducia degli utenti, della comunità scientifica, degli enti pubblici e dell’industria, ma stimola anche continui miglioramenti ed è un primo passo verso processi di verifica rigorosi per garantire la conformità a leggi e regolamenti.”

Realizzati all’interno di FAIR (Future Artificial Intelligence Research), il progetto guidato dal Consiglio Nazionale delle Ricerche che realizza la strategia nazionale sull’intelligenza artificiale grazie ai fondi PNRR in collaborazione con CINECA, i modelli Minerva sono disponibili dallo scorso 23 aprile in anteprima alla comunità scientifica FAIR, per poi arrivare, nelle prossime settimane, al rilascio pubblico nella loro versione più evoluta, che comprenderà la possibilità di conversare con l’IA in italiano.

Un ulteriore elemento di novità di questa iniziativa è l’impegno del gruppo Sapienza NLP nella creazione di nuovi benchmark di valutazione, strumenti sviluppati ad hoc per testare le capacità dei modelli linguistici su larga scala di rispettare e valorizzare anche le sfumature culturali e linguistiche della lingua italiana. Inoltre, il progetto rilascerà una documentazione tecnica completa per condividere il processo ingegneristico e le scoperte scientifiche e poter replicare l’implementazione e l’addestramento dei modelli.

Riproduzione Riservata © 2024 Scitizenship

Aggiornato il 05/15/2024

Articoli correlati