Il 6 marzo è stata presentata l’anteprima di un’IA agente chiamata Manus, sviluppata dalla startup cinese Manus AI, e definita dalla stessa come "la prima IA agente generale al mondo”, che è anche di tipo open-source.
L’annuncio è stato corredato da un video, e da una serie di casi d’uso sul web della startup, che mostra Manus effettuare compiti complessi navigando in Internet per pianificare un viaggio di due mesi per la famiglia in Australia, Nuova Zelanda e Argentina riassumendolo in una pagina HTML navigabile; esaminare diversi curricula di candidati informatici per presentarli in modo approfondito al selezionatore; o anche cercare proprietà a New York secondo criteri prestabiliti, come sicurezza, qualità delle scuole e ovviamente budget a disposizione.
La differenza principale rispetto ad altri strumenti simili come i vari Deep Research di OpenAI, Perplexity o Google, è che Manus sembra avere un’agilità migliore nella gestione delle richieste dell’utente, mostrando anche la sua navigazione tramite browser alla ricerca di informazioni; un po’ come avviene per Operator di OpenAI, che in fondo è lo strumento che gli somiglia di più.
Operator è l’agente IA di OpenAI che può navigare sul web e interagire con i siti
Quello delle IA generative e affini è uno scenario che continua a cercare la “next big thing”, e questa volta è toccato a Manus, anche per la semplice ed efficace presentazione che lo ha accompagnato e per la sua identità open-source.
Il nome Manus deriva dal motto latino “Mens et Manus”, mente e mano, che è anche il motto del Massachusetts Institute of Technology (MIT) di Cambridge, negli Stati Uniti.
La narrazione che ha accompagnato nei primi giorni dal rilascio in anteprima di Manus - a cui si accede tramite invito richiesto sul sito della startup - è stata entusiastica, come spesso accade in questi casi.
Alcune testate come Forbes sono arrivate a dire che Manus non si limita a eseguire semplicemente le richieste dell’utente, ma le condisce anche con preferenze non espressamente dichiarate e che potrebbero essere d’interesse, come “le statistiche sulla criminalità, le tendenze degli affitti, persino le condizioni meteorologiche”, mentre nel video di Manus AI per la ricerca di un appartamento a New York questi argomenti sono invece espressamente dichiarati dall’utente.
Manus deve ancora crescere
In modo molto aperto, a spegnere il fuoco su Manus, sono arrivati gli stessi sviluppatori dell’IA, che hanno ricordato che si tratta ancora di un’anteprima, dato che in realtà gli utenti che lo stanno provando segnalano anche diversi problemi, come messaggi di errore, loop infinti, informazioni non trovate che invece si reperiscono facilmente online, e crash nel prenotare voli o panini con il pollo.
Scenari assolutamente prevedibili, specie per un’anteprima e per una tecnologia di deep learning transformer che, essendo intrinsecamente probabilistica, difficilmente è precisa al primo colpo, soprattutto su argomenti molto complessi.
Al momento, Manus si basa su un'architettura multi-agente che utilizza vari modelli di intelligenza artificiale per eseguire compiti complessi. È quanto è emerso da un dialogo molto trasparente su X tra gli utenti e Yichao 'Peak' Ji, il cofondatore di Manus AI.
Manus AI si basa su Claude 3.5 Sonnet, ma con l’integrazione di 29 strumenti per espandere le sue capacità operative. Tuttavia, il sistema utilizza anche modelli Qwen fine-tuned e diversi altri modelli ausiliari, come Stainer-32B-preview per le tecniche di pianificazione. La startup sta anche testando Claude 3.7 Sonnet.
In sostanza, Manus AI usa un sistema multi-agente nel quale diversi moduli lavorano insieme per gestire le richieste dell’utente. Quando un utente interagisce con Manus, sta comunicando con un "agente esecutore" (executor agent), che è responsabile dell’esecuzione diretta dei comandi, ma che non ha accesso diretto ai dettagli degli altri agenti (come il planner o il knowledge agent). Un approccio che ha due vantaggi: l’ottimizzazione della memoria contestuale, riducendo il carico di token elaborati dal modello principale; e una migliore sicurezza e modularità, separando l’esecuzione dalla pianificazione e dalla conoscenza.
Per poter navigare la rete, Manus si serve invece di strumenti open-source tra cui browser-use.
Manus è sicuramente uno strumento che può giocarsi le sue carte, ma al momento non è nulla di assolutamente rivoluzionario. Per dire, siamo riusciti a creare l’itinerario di 2 mesi per la famiglia dall’Australia all’Antartide anche con Deep Research di OpenAI (costo del viaggio 51.800 euro), a cui abbiamo chiesto anche di creare una pagina HTML navigabile.
La pagina web creata da ChatGPT contiene meno informazioni di quelle date nella chat da cui è derivata, ma il problema è sempre e solo uno, e vale anche per Manus: creare un listato di informazioni per ottenere l’effetto wow è una cosa diversa rispetto alla verifica della correttezza delle informazioni fornite nel listato. Anche per Manus, gli appassionati creano listoni di cose complesse e le mostrano in video veloci e d’effetto, ma pochissimi ne verificano la qualità.
0 Commenti