Ormai non passa settimana senza nuovi annunci sul fronte dell'Intelligenza Artificiale. L'ultima startup ad uscire allo scoperto merita una menzione per almeno due motivi. Deep Cogito, startup fondata da sviluppatori con un passato in Google e DeepMind, ha pubblicato dei modelli LLM "ibridi" che darebbero filo da torcere in diversi benchmark all'appena pubblicato Llama 4 di Meta e a DeepSeek R1, e ha come obiettivo finale la creazione di una super intelligenza artificiale.

I modelli sviluppati da Deep Cogito sono stati addestrati in appena 75 giorni da un team di poche persone e con un basso costo computazionale attraverso un innovativo approccio denominato IDA o Iterated Distillation and Amplification, che secondo l'azienda sarebbe la strategia migliore per raggiungere la super intelligenza generale, un'intelligenza artificiale, cioè, con facoltà superiori all'intelligenza umana (un passo successivo cioè all'intelligenza generale).

La tecnica consiste in un processo iterativo che alterna i seguenti passaggi: con la fase di "Amplificazione" si creano capacità cognitive superiori tramite sottoprocedure che in genere richiedono un maggiore uso di risorse computazionali, mentre con la "Distillazione" si trasferiscono le capacità amplificate nei parametri del modello, permettendogli di internalizzare queste competenze.

"Utilizziamo più potenza di calcolo per permettere al modello di arrivare a una soluzione migliore, e poi distilliamo questo processo di pensiero 'costoso' nei parametri del modello stesso", scrive Deep Cogito nel post con cui si presenta al mondo. "Man mano che il modello migliora in intelligenza, anche il processo di ragionamento diventa più efficace. Ripetendo ciclicamente questi due passaggi, ogni ciclo si basa sui progressi dell’iterazione precedente. Questo approccio iterativo genera un circolo virtuoso, in cui le capacità del modello dipendono sempre più dalle risorse computazionali e dall’efficacia del processo di amplificazione-distillazione".

Quelli rilasciati da Deep Cogito sono degli LLM ibridi, nel senso che hanno anche delle facoltà di reasoning per le richieste più complesse, senza essere dei modelli specializzati nel reasoning. Sono stati realizzati a partire da modelli LLama di Meta e Qwen di Alibaba pre-addestrati, e poi potenziati tramite la tecnica IDA. Al momento Deep Cogito ha pubblicato modelli da 3, 8, 14, 32 e 70 miliardi di parametri. Nei prossimi mesi arriveranno anche quelli da 109, 400 e 671 miliardi di parametri. I modelli possono essere scaricati da Huggingface o Ollama. Possono essere anche provati su Together AI e Fireworks AI. Secondo Deep Cogito, a livello di prestazioni, il modello da 70 miliardi di parametri addestrato utilizzando IDA supera sia il modello Llama 3.3 da 70 miliardi, distillato dal modello Llama 3 da 405 miliardi di parametri, sia il modello Llama 4 Scout da 109 miliardi, distillato dal modello Llama 4 Behemoth da 2 trilioni di parametri.

Meta lancia i modelli Llama 4: multimodali con “esperti” e finestra di contesto fino a 10 milioni di token

Vai all'approfondimento