Con il recente debutto di Llama 4 Maverick e Scout, i due nuovi modelli IA open-weight (con pesi aperti), Meta si è immediatamente posizionata con il modello Maverick al secondo posto su LM Arena, una piattaforma di benchmarking dove gli utenti votano le risposte degli LLM in un confronto diretto. Tuttavia, è emerso che la versione testata non corrisponde a quella effettivamente distribuita al pubblico.

Secondo i suoi termini d’uso, LM Arena include nella sua piattaforma modelli LLM che sono pubblicamente disponibili. Mentre, per porter partecipare alla classifica, devono soddisfare almeno uno di questi criteri: avere pesi aperti (con i pesi accessibili al pubblico), avere API pubbliche, oppure il modello deve essere disponibile attraverso un servizio pubblico ampiamente accessibile.
Secondo la documentazione ufficiale - pubblicata e non nascosta - Meta ha utilizzato una “versione sperimentale ottimizzata per la conversazione”, denominata Llama-4-Maverick-03-26-Experimental, per ottenere il risultato in LM Arena che l’ha portato al secondo posto della classifica globale.

Un dettaglio, comunque accessibile ma relegato nelle note tecniche, che ha scatenato la reazione della comunità scientifica e di LM Arena stessa, la quale ha dichiarato che la condotta di Meta non è stata coerente con le aspettative di trasparenza.
We've seen questions from the community about the latest release of Llama-4 on Arena. To ensure full transparency, we're releasing 2,000+ head-to-head battle results for public review. This includes user prompts, model responses, and user preferences. (link in next tweet)
— lmarena.ai (formerly lmsys.org) (@lmarena_ai) April 8, 2025
Early…
La critica principale alla versione di Maverick ottimizzata riguarda la disconnessione tra le performance osservate nei test e quelle ottenibili nella realtà: la versione pubblicamente disponibile di Maverick mostrerebbe infatti comportamenti differenti, con risposte generalmente meno articolate e un tono più asciutto rispetto alla variante testata su LM Arena.
Il motivo di queste differenze è probabilmente da ricercare nel tipo di test che viene condotto su LM Arena, cioè compiuto direttamente dagli utenti su prompt diversi e personali e non attraverso la valutazione di benchmark. Questo approccio, sebbene sia legato a un utilizzo più concreto dei modelli nei casi d’uso reali, avvantaggia quei modelli che risultano più “discorsivi” e apparentemente più “umani”. Meta avrebbe quindi trattato beneficio da questo comportamento involontario degli utenti presentando un Llama 4 Maverick più “loquace” e, se si guardano le risposte pubblicate da LM Arena, anche più incline all’uso delle emoji nelle sue risposte.
Meta lancia i modelli Llama 4: multimodali con “esperti” e finestra di contesto fino a 10 milioni di token
Meta ha avuto fretta?
Il rilascio dei modelli Llama 4 è avvenuto di sabato e, nel campo dello sviluppo software, il weekend è notoriamente un periodo della settimana sconsigliato per la distribuzione di nuovi prodotti, dato che un eventuale intervento sul rilascio a causa di problemi vedrebbe anche un numero di dipendenti inferiore per poterlo risolvere.
Con il lancio di Llama 4, e soprattutto con la versione ottimizzata di Maverick per LM Arena, Meta avrebbe quindi mostrato una sorta di “panico da reazione” dovendo rispondere ai recenti rilasci di OpenAI (con la creazione nativa delle immagini di ChatGPT), di Google con Gemini 2.5 Pro e altre novità legate all’app Gemini, ma soprattutto Meta doveva ancora rispondere alla cinese DeepSeek e alla sua filosofia open, con modelli altrettanto capaci e di successo.
Uno stato di cose che potrebbe avere affrettato il rilascio, generando le discrepanze tra la versione provata su LM Arena e quella ora pubblicamente disponibile.
In risposta, Ahmad Al-Dahle, a capo dell’IA di Meta, ha negato le accuse secondo cui i modelli sarebbero stati addestrati direttamente sui set di test, una pratica scorretta che altererebbe artificialmente i risultati. Al-Dahle ha invece spiegato che le prestazioni possono variare a causa della fase di stabilizzazione delle implementazioni presso i vari fornitori cloud, e che il rilascio anticipato, avvenuto nel weekend, rifletteva semplicemente la disponibilità tecnica del modello.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
Tuttavia, qualcosa di “frettoloso” deve essere comunque accaduto nel rilascio dei nuovi modelli, dato che almeno un ricercatore di Meta AI avrebbe presentato le dimissioni chiedendo di non essere incluso nel report tecnico dei modelli. Il ricercatore ha affermato su un social cinese che “i dirigenti hanno suggerito di mischiare vari set di benchmark durante il post-training, con l’obiettivo di far sembrare che i risultati fossero buoni su più metriche, per ottenere qualcosa che “sembri accettabile”. Tuttavia, se non si raggiungono gli obiettivi entro la scadenza fissata per fine aprile, le conseguenze saranno gravi”.
Nel social, l'utente ha usato il nickname "dliudliu" che potrebbe corrispondere a uno sviluppatore su GitHub di nome "Daniel Liu" che ha un ingegnere omonimo che lavora in Meta AI.
A questo fatto si aggiungono le recenti dimissioni di Joelle Pineau, a capo della ricerca di Meta AI, che ha supervisionato progetti importanti come PyTorch, Audiobox e anche i modelli linguistici Llama. Pineau non ha spiegato i motivi dell’addio, e ha rivelato solo che continuerà la sua attività accademica come professoressa di informatica presso l’Università McGill a Montreal.
9 Commenti