Google DeepMind ha annunciato Gemma 3, la nuova versione della famiglia di modelli open Gemma, generalmente pensata per offrire un buon rapporto prestazioni/accessibilità, quindi per essere usato anche su sistemi non molto potenti. Rispetto alla generazione precedente, Gemma 3 introduce importanti miglioramenti in termini di capacità di elaborazione del linguaggio naturale, gestione del contesto e supporto multimodale.
Innanzitutto, Gemma 3 è disponibile in quattro “dimensioni” – 1 miliardo, 4 miliardi, 12 miliardi e 27 miliardi di parametri – e può essere utilizzato in due versioni principali: modelli pre-addestrati e modelli istruiti per specifici compiti.
È necessario evidenziare, inoltre, che è la prima volta che un modello Gemma avvicina la dimensione di 1 miliardo di parametri, che però non è multimodale; ovviamente adatta a dispositivi agili e con capacità di calcolo ridotte.

Uno degli aspetti più innovativi di Gemma 3 è l’integrazione della multimodalità, che permette al modello di elaborare non solo testo, ma anche immagini e video brevi, che però restituiranno sempre e solo output testuali. Questa caratteristica è resa possibile dall’encoder SigLIP che traduce i contenuti visivi in rappresentazioni interne comprensibili dal modello. Un’evoluzione che consente a Gemma 3 di analizzare immagini, identificare oggetti, rispondere a domande basate sul contenuto visivo e persino leggere e interpretare il testo presente nelle immagini.
Un altro grande passo avanti riguarda la gestione del contesto. Mentre le versioni precedenti erano limitate a finestre di contesto più ristrette, fino a 32.000 token, Gemma 3 può processare fino a 128.000 token in un’unica sessione. Questo significa che il modello può mantenere la coerenza su testi più lunghi, migliorando la sua capacità di analisi e comprensione in conversazioni estese o documenti complessi.
Il supporto linguistico è stato ampliato notevolmente. Se Gemma 2 garantiva prestazioni solide su circa 80 lingue, la nuova versione si spinge oltre, arrivando a coprire più di 140 lingue. Questa espansione è accompagnata dall’adozione di un nuovo tokenizer derivato da quello di Gemini 2.0, che permette al modello di gestire in modo più accurato le strutture linguistiche non inglesi e migliorare la qualità delle traduzioni.
In tal senso, occorre ricordare il multilinguismo intrinseco della maggior parte degli LLM, Gemma compreso. Questo multilinguismo si riferisce alla capacità di un modello di comprendere e generare testo in più lingue senza necessità di traduzione intermedia o di addestramento specifico per ogni lingua.
Una capacità resa possibile dall’addestramento su un grande corpus di testi multilingue, che permette al modello di riconoscere pattern, strutture grammaticali e relazioni semantiche tra diverse lingue.
Per esempio, nelle lingue romanze – tra cui, italiano, spagnolo, francese, portoghese e rumeno – esistono molte somiglianze lessicali e grammaticali dovute alla loro origine comune dal latino. Un LLM con multilinguismo intrinseco può sfruttare queste similarità per migliorare la comprensione e la generazione del testo. Se un modello è stato esposto a grandi quantità di dati in italiano e spagnolo, sarà in grado di intuire il significato di una frase portoghese anche senza aver ricevuto un addestramento specifico su quella lingua.
L’accordo tra Google e Samsung è già meno esclusivo: Gemini parla anche con OPPO
Dal punto di vista del ragionamento e del calcolo, Gemma 3 introduce ottimizzazioni specifiche per il problem solving e il coding, ma non è un modello “reasoning”, cioè a catena di pensiero.
I miglioramenti sono il risultato di una strategia di addestramento avanzata basata sul reinforcement learning. Il modello è stato inoltre migliorato utilizzando tecniche di distillazione e apprendimento con feedback umano e non.
Sul fronte dell’efficienza, Google ha reso disponibili versioni quantizzate di Gemma 3, che riducono il consumo di memoria senza compromettere la qualità delle risposte. Questa caratteristica consente al modello di essere eseguito anche su hardware meno potenti, come singole GPU o TPU, rendendolo accessibile a un pubblico più ampio.

Oltre agli avanzamenti tecnici, Gemma 3 introduce anche strumenti per una maggiore sicurezza e affidabilità. Insieme al modello principale, Google ha lanciato parallelamente ShieldGemma 2, un sistema di controllo delle immagini basato su Gemma 3 da 4 miliardi di parametri. Uno strumento pensato per moderare contenuti visivi, identificando e filtrando immagini potenzialmente pericolose, violente o inadatte.
I nuovi modelli Gemma 3 sono compatibili con numerosi framework open-source come Hugging Face, Ollama e JAX, permettendo così agli sviluppatori di integrarli facilmente nei loro progetti. Gli “utenti comuni” più curiosi possono invece provare Gemma 3 27B attraverso Google AI Studio.
0 Commenti