Nel corso di un panel sui super calcolatori al Festival dell’Economia di Trento, l’amministratore delegato di Fastweb, Walter Renna, ha dato degli aggiornamenti sul modello linguistico di grandi dimensioni che la telco sta sviluppando, e ha svelato che il supercomputer acquistato da Nvidia sarà inaugurato a luglio.
Il modello di Fastweb ha un dataset di "11 milioni di libri" completamente in italiano
A dicembre del 2023 Fastweb ha annunciato l’acquisto di un supercomputer Nvidia per lo sviluppo di un LLM addestrato nativamente in italiano. Si tratta di un sistema costituito da 31 Nvidia DGX H100, ed equipaggiato con 248 GPU Nvidia H100 Tensor Core (perché, secondo design, ogni infrastruttura IA DGX H100 ha 8 GPU NVIDIA H100).
Fastweb ha comprato un supercomputer Nvidia: "Svilupperemo il primo modello IA addestrato in italiano"
Questo supercomputer sarà disponibile a luglio. Fastweb lo userà per addestrare il modello, che poi sarà distribuito a terzi tramite i servizi IA di Amazon Web Services (AWS). Fastweb ha inoltre già utilizzato la piattaforma di Amazon chiamata SageMaker per effettuare un fine-tuning del modello Mistral 7B ottenendo miglioramenti tra il 20% e il 50% sui benchmark in lingua italiana.
Tutti i più noti modelli già distribuiti, come GPT, Llama e Claude, hanno una piccolissima percentuale di dati di preaddestramento in lingua italiana. Per fare degli esempi, Llama 2 ha solo lo 0,11% in italiano, mentre Llama 3 ha solo un 5% di dati non in inglese diviso per 30 lingue.
Come provare LLama 3 (e molti altri modelli) sul proprio notebook senza fatica
“Gli attuali modelli di Intelligenza Artificiale si affidano principalmente a dati in lingua inglese, ma una maggiore comprensione delle sfumature della lingua italiana può essere ottenuta dall’addestramento su set di dati in italiano accuratamente selezionati e di alta qualità” ha detto Renna nella nota con la quale Fastweb ha annunciato la collaborazione con AWS.
Al Festival dell’Economia, Renna ha invece detto qualcosa di più sulla quantità e la qualità di questi dati. Lo riporta Il Sole 24 Ore: “Ad oggi abbiamo già 1.500 miliardi di token di contenuti validi: tutti in italiano e frutto di accordi. Abbiamo un’intesa con Bignami Edizioni, che è un editore piccolo, ma di alta qualità. Abbiamo le Gazzette ufficiali, che sono documenti pubblici. Abbiamo utilizzato il Common Crawl, quindi i dati del web ripuliti da noi stessi. Anche questi copyright proof. E abbiamo tutti i dati legati alla nostra scuola digitale, la Fastweb Digital Academy, che in questi anni ha prodotto numerosi contenuti di qualità”, ha detto
Nel contesto dell'elaborazione del linguaggio naturale, un “token” può essere pensato come una singola unità di significato in un testo. Può essere una parola intera, parte di una parola o un carattere di punteggiatura. Per fare un paragone, Llama 3 di Meta è stato preaddestrato con 15.000 miliardi di token.
Renna ha quantificato meglio questi 1.500 miliardi di token dell’LLM di Fastweb, spiegando che equivalgono a circa 11 milioni di libri, e per i quali, ha ricordato, sono stati corrisposti i diritti di copyright.
Il supercomputer acquistato da Nvidia, che sarà inaugurato a luglio, verrà installato in un datacenter Fastweb della Lombardia, e non sarà usato solo per lo sviluppo dell’LLM ma verrà messo a disposizione di aziende, università, Pubbliche Amministrazioni in modalità IaaS (Infrastructure as a Service) per lo sviluppo di servizi e applicazioni AI e Gen AI, attaverso il cloud AWS.
A Trento, Renna ha detto: “Finalmente potremo cominciare a sviluppare soluzioni e a commercializzare le soluzioni di Intelligenza Artificiale. Finalmente potremo partire lavorando con le aziende e le pubbliche amministrazioni per sviluppare le applicazioni verticali”.
Ha anche chiarito che l’acquisizione di Vodafone da parte di Swisscom, proprietaria di Fastweb, non rallenterà questo progetto.
0 Commenti