Gemini finisce dentro i robot: nascono i modelli Gemini Robotics

Il grande pubblico conosce l'Intelligenza Artificiale generativa principalmente attraverso i chatbot, ma il settore sta rapidamente (e da tempo) evolvendo verso applicazioni industriali specializzate. L’ultimo esempio è quello di Gemini Robotics di Google DeepMind, cioè modelli omnimodali che guideranno i robot del futuro.

La gamma “Gemini Robotics” si compone di due modelli basati su Gemini 2.0 e progettati per portare l'IA nel mondo fisico. Il primo è chiamato semplicemente Gemini Robotics ed è un modello di visione-linguaggio-azione (VLA) che estende le capacità di Gemini 2.0 aggiungendo le azioni fisiche come nuova modalità di output per il controllo diretto dei robot.

In sostanza è un modello che ha lo scopo di rendere i robot utili e interattivi, capaci di rispondere in tempo reale alle azioni e alla voce, abili nell'eseguire compiti complessi e generali all’interno del mondo reale, quello degli esseri umani.

Gemini Robotics è interattivo, quindi reagisce e ripianifica in tempo reale - almeno secondo le dichiarazioni di Google DeepMind - con una bassa latenza che permette risposte rapide a condizioni e istruzioni anche in scenari in evoluzione, cioè che cambiano a seconda delle azioni che si svolgono, come appunto un’interazione uomo-macchina. Questa caratteristica fa di Gemini Robotics anche un modello “generale”.

Il modello, dunque, monitora costantemente l'ambiente circostante, rilevando cambiamenti e adattando le proprie azioni, e permette di svolgere compiti che richiedono manipolazioni precise, come piegare un origami o impacchettare oggetti.

Il secondo modello introdotto è Gemini Robotics-ER (Embodied Reasoning), focalizzato sul potenziamento della comprensione spaziale necessaria per la robotica.

Questo modello migliora le capacità esistenti di Gemini 2.0, come il pointing e la rilevazione 3D, e consente ai sistemi robotici di integrare le capacità di ragionamento di Gemini con i propri sistemi di controllo a basso livello.

In contesti end-to-end, Google afferma che il modello mostra un significativo aumento del tasso di successo rispetto a Gemini 2.0. Inoltre, quando la generazione di codice non è sufficiente, Gemini Robotics-ER può sfruttare l'apprendimento in-context (contestuale), seguendo esempi di dimostrazioni umane per trovare soluzioni.

Gemini Robotics-ER è quindi capace di eseguire tutti i passaggi necessari per controllare un robot, dalla percezione alla comprensione spaziale, passando per la pianificazione e toccando anche la generazione di codice.

Entrambi i modelli sono progettati per essere adattabili a diverse forme robotiche. Gemini Robotics è stato addestrato principalmente su una piattaforma robotica con due braccia, ALOHA 2, ma può controllare anche altre piattaforme, inclusi robot umanoidi come Apollo di Apptronik. Google DeepMind sta collaborando proprio con Apptronik per costruire la prossima generazione di robot umanoidi dell’azienda di Austin.

Inoltre, Gemini Robotics-ER è disponibile per un gruppo selezionato di partner e tester, tra cui Agile Robots, Agility Robots, Boston Dynamics ed Enchanted Tools.

A margine, Google DeepMind sta rilasciando un nuovo dataset, ASIMOV, che servirà a valutare e migliorare la sicurezza semantica nell'intelligenza artificiale embodied (cioè, “incarnata” in corpi fisici come semplici dispositivi, o come droni e veicoli) e nella robotica.

In generale si tratta di un dataset utile per generare “costituzioni robotiche” che servano a guidare il comportamento dei robot in modo più sicuro e allineato ai valori umani. Google ha introdotto il concetto di Constitution Robotics nel gennaio del 2024, ispirato alla tre leggi della robotica dello scrittore Isaac Asimov, da cui il nome del nuovo dataset.

Queste sono le Tre Leggi della Robotica introdotte per la prima volta da Isaac Asimov nel 1942 e presenti in molte delle sue opere di fantascienza:

Un robot non può recare danno a un essere umano né può permettere che, a causa del proprio mancato intervento, un essere umano riceva danno.
Un robot deve obbedire agli ordini impartiti dagli esseri umani, purché tali ordini non contravvengano alla Prima legge.
Un robot deve proteggere la propria esistenza, purché questa autodifesa non entri in conflitto con la Prima o con la Seconda legge.

C'è anche una Quarta Legge, chiamata Legge Zero, introdotta successivamente dallo scrittore e che riguarda l'intera umanità.

Un robot non può recare danno all'umanità, né può permettere che, a causa del proprio mancato intervento, l'umanità riceva danno.

Il quotidiano dell'hi-tech

DDAY.it

Gemini finisce dentro i robot: nascono i modelli Gemini Robotics

Un modello permette a Gemini 2.0 di avere output “fisici”; l’altro consente ai robot di orientarsi nello spazio, integrandosi nelle istruzioni a basso livello dei sistemi

0 Commenti