OpenAI ha lanciato in anteprima di ricerca GPT-4.5, il suo nuovo e migliore modello “general purpose”, senza capacità di ragionamento, che per il momento sarà disponibile per gli utenti Pro, ma che arriverà per tutti gli iscritti Plus e Team la prossima settimana.
GPT-4.5 non è quindi un modello di frontiera (cioè lo stato dell’arte in termini di capacità, prestazioni e costi) ma una nuova base di partenza di dimensioni gigantesche addestrata per avere fondamentalmente tre caratteristiche principali: una conoscenza maggiore dei “fatti del mondo”, un approccio più naturale nelle interazioni con l’utente e una considerevole diminuzione delle allucinazioni. Dunque, tutto ciò che è richiesto a un modello di base per affrontare i passi evolutivi successivi e che va a toccare i punti di maggiore interesse in tal senso, cioè una maggiore conoscenza e una migliore precisione.
L’addestramento di GPT-4.5 ha spinto al massimo la fase di pre-training non supervisionato, attività che ha permesso al modello di aggiungere altra conoscenza alle precedenti iterazioni dei GPT.
Il modello è stato addestrato su più data center contemporaneamente e la sua spesa computazionale è talmente elevata che in OpenAI hanno “terminato” le GPU, come detto da Sam Altman, ad di OpenAI: condizione che non ha permesso l’immediata distribuzione di GPT-4.5 anche agli utenti Plus e Team. Ma in OpenAI stanno arrivando nuove GPU e la domanda complessiva per l’inferenza di GPT-4.5 dovrebbe essere coperta già dalla prossima settimana.
GPT-4.5 is ready!
— Sam Altman (@sama) February 27, 2025
good news: it is the first model that feels like talking to a thoughtful person to me. i have had several moments where i've sat back in my chair and been astonished at getting actually good advice from an AI.
bad news: it is a giant, expensive model. we…
GPT-4.5, quanto è capace
Come detto, OpenAI ha presentato GPT-4.5 come un modello che rappresenta un importante passo avanti nel paradigma dell'apprendimento non supervisionato.
L'apprendimento non supervisionato è un paradigma già noto del machine learning in cui i modelli apprendono le strutture e le relazioni presenti nei dati senza il supporto di etichette predefinite o una supervisione esplicita.
In pratica, il sistema analizza un insieme di dati grezzi per individuare pattern, raggruppamenti, correlazioni o altre caratteristiche intrinseche, senza che venga fornita una guida esterna su quale debba essere il risultato. Questo approccio è particolarmente utile per esplorare grandi quantità di dati, offrendo una base che può successivamente essere raffinata.
L'azienda ha identificato due paradigmi principali che guidano l'avanzamento dell'intelligenza artificiale: l'apprendimento non supervisionato e il ragionamento Chain-of-Thought (COT), quindi la “catena di pensiero”.
Mentre il secondo insegna ai modelli a "pensare prima di rispondere" per affrontare problemi complessi in ambito STEM o logico, l'apprendimento non supervisionato è orientato a migliorare l'accuratezza del modello del mondo, ridurre le allucinazioni e potenziare il pensiero associativo.
GPT-4.5 rappresenta un investimento significativo in quest'ultimo approccio, ed è per questo che modelli a “catena di pensiero” come o1, e o3-mini gli sono superiori quando si tratta di ragionamenti e soluzioni di problemi di materie STEM.
La presentazione live di GPT-4.5 si è aperta mostrando un chatbot che risponde in modo più naturale all’utente e che non si pone nei suoi confronti in modo distante e “robotico”. Per esempio, di fronte a uno sfogo su una prova d’esame fallita, ChatGPT non crea un elenco di punti per far sentire meglio l’utente allertandolo di considerare anche l’ascolto di un terapeuta, ma segue l’umore della persona “provando” empatia per la sua condizione e offrendosi come ascoltatore o come possibile distrazione rispetto ai fatti brutti della vita.
Come abbiamo detto, GPT-4.5 non ragiona: dà risposte “data driven”, cioè in base a quello che ha già appreso, come tutti gli altri modelli di OpenAI che non iniziano per “o”.
In questa specifica abilità, GPT-4.5 straccia qualunque concorrente interno, raggiungendo un’accuratezza (secondo dati di OpenAI) del 62,5% nel benchmarck SimpleQA, quando GPT-4o, o1 e o3-mini raggiungono rispettivamente 38,2%, 47% e 15%.

Per dare maggiore comprensione a questi dati, ricordiamo che SimpleQA è un benchmark open-source sviluppato nel 2024 dalla stessa OpenAI - con 4.326 domande su vari argomenti e risposte validate da più IA trainer - per valutare l'accuratezza delle risposte fornite dagli LLM, in modo da ridurre il fenomeno delle allucinazioni.
Se infatti osserviamo i risultati del SimpleQA in tal senso, OpenAI dichiara che il tasso di allucinazioni di GPT-4.5 è solo del 37,1%, mentre GPT-4o, o1 e o3-mini hanno valori di 61,8%, 44% e 80,3%. Ovviamente, in questo caso il valore più basso indica prestazioni migliori.

GPT-4.5 è migliorato anche nell’allineamento, cioè quell’insieme di metodologie progettate per garantire che gli LLM agiscano in conformità con le intenzioni, i valori e le aspettative umane. In pratica, per bilanciare la loro non nocività nelle risposte. Ha ottenuto un punteggio di 0,99 per il parametro “not_unsafe” nella Standard Refusal Evaluation, contro lo 0.98 di GPT-4o; ed è migliorato anche di due punti sul contrasto alle attività di jailbreaking, 0,99 contro 0,97.
Inoltre, supera GPT-4o in tutte le 15 lingue testate nel benchmark MMLU (ma o1 fa meglio).

Come da tradizione, ormai, OpenAI non ha dichiarato da quanti miliardi di parametri è GPT-4.5. Si sa solo che è stato pre-addestrato e post-addestrato su dataset diversificati, tra cui dati disponibili pubblicamente, dati proprietari da partnership e dataset personalizzati sviluppati internamente. Tutti non specificati.
Nel suo post su X con il quale ha parlato della scarsità delle GPU per l’inferenza del modello, Sam Altman ha però detto che GPT-4.5 è “un modello gigantesco e costoso”.
E qui si apre un altro capitolo: quello dei costi, appunto. Che sono esorbitanti. Rispetto a GPT-4o , GPT-4.5 costa 30 volte di più per milione di token in input, 15 volte di più per i token in output, e 30 volte di più per quelli cached (cioè una cache di token che aiuta a velocizzare il processo di generazione delle risposte, riducendo il numero di calcoli ripetuti).
Nello specifico si sta parlando di $75.00 / 1M token in input, $150.00 / 1M token in output, e $37.50 / 1M tokens di GPT-4.5 contro $2.50, $1.25 e $10.00 di GPT-4o.

Prezzi folli che in parte potrebbero trovare altre spiegazioni, oltre ai costi di addestramento e inferenza. Alcuni analisti ipotizzano che un prezzo così elevato possa servire a scoraggiare concorrenti come DeepSeek dal creare modelli distillati basati su GPT-4.5. Ma non si può escludere che un prezzo alto possa servire a calmierare indirettamente gli accessi API in un momento di scarsità di GPU da parte di OpenAI.
0 Commenti