Assaggi di italiano per Apple Intelligence: le prime beta per sviluppatori di iOS 18.4, iPadOS 18.4 e macOS Sequoia 15.4 rilasciate ieri da Apple includono anche il linguaggio italiano insieme a francese, tedesco, italiano, portoghese (Brasile), spagnolo, giapponese, coreano e cinese semplificato, oltre a inglese localizzato per Singapore e India.

Precisiamo che la disponibilità della lingua italiana non coincide con necessariamente con la disponibilità in Italia, anche perché in Italia Apple Intelligence già funziona su Mac se si sceglie la lingua inglese. L’unica certezza che abbiamo oggi è che con l’arrivo della lingua italiana almeno su Mac, con macOS Sequoia 15.4, quando uscirà la beta pubblica o ci sarà la versione finale, gli utenti in Italia potranno usare tutte le funzioni di Apple Intelligence.

Per quanto riguarda iPhone e iPad arriverà con iOS 18.4 e iPadOS 18.4 il supporto all’italiano ma questo non implica automaticamente che iOS 18.4 e iIS 18.4 saranno le versioni che porteranno Apple Intelligence su iPhone e iPad in Europa e quindi in Italia. L’obiettivo di Apple è probabilmente quello, ad oggi funziona tutto, ma sappiamo che lo sbarco dell’IA nel Vecchio Continente è vincolato alla questione tecnica, la lingua, e alla questione normativa, il Digital Market Act.

Apple scrive infatti che con i prossimi aggiornamenti software, gli utenti di iPhone e iPad nell'UE avranno accesso per la prima volta alle funzionalità di Apple Intelligence ma potrebbe arrivare prima la lingua, con iOS 18.4, e successivamente la disponibilità, magari con iOS 18.5. Le due cose potrebbero anche coincidere, non c’è una data fissata: indicativamente aprile.

Nota bene: si tratta di una primissima versione beta quindi non possiamo ancora dare giudizi per quanto riguarda il modello italiano. Altri modelli sono ancora in beta ma comunque più maturi.

Apple Intelligence in italiano, nessuna differenza con l'inglese

Con Apple Intelligence in italiano si potrà fare praticamente tutto quello che si può già fare nei paesi dove Apple Intelligence è disponibile, senza limitazioni di sorta. Anzi, molte funzionalità legate a Visual Intelligence saranno introdotte proprio con le nuove release beta e quindi, da adesso in poi, lo sviluppo delle funzionalità dovrebbe andare di pari passo per le lingue ufficialmente supportate.

La chiave di Apple Intelligence è il funzionamento quasi interamente “on device”: quasi perché sebbene tutti i modelli e tutte le funzioni siano utilizzabili in assenza di connessione, ci sono alcuni casi dove le richieste sarebbero troppo pesanti da gestire in locale, per questione di tempi e anche di consumo, e vengono inviate ai nodi Private Cloud Compute. Ne abbiamo già parlato in modo esaustivo: si tratta di nodi dedicati alle singole richieste dell’utente che vivono per l’istante necessario alla gestione del task e poi vengono eliminati senza alcun log. Nessuno, nemmeno chi gestisce i server ha accesso ai dati e Apple ha pubblicato in formato open source tutto il codice dei meccanismi di sicurezza e di policy dei nodi per fare in modo che tutti possano analizzarli e rendersi conto che effettivamente ci si trova davanti allo stato dell’arte per quanto riguarda la privacy in una soluzione cloud based. Il repository è raggiungibile a questo link: https://github.com/apple/security-pcc.

Tornando ad Apple Intelligence non ci troviamo ancora davanti a quell’Apple Intelligence che Apple ha mostrato lo scorso anno alla WWDC: sapevamo che sarebbe stato un percorso lento e ad oggi ancora manca quello che dovrebbe essere l’elemento chiave, ovvero la nuova Siri che funziona come un agente IA utilizzando i dati (gli intenti) che gli sviluppatori hanno messo a disposizione.

Siri è stata rinnovata, si appoggia a ChatGPT per alcune richieste, ma tra lei e un agente che dialoga in modo naturale come ChatGPT Voice o Gemini Live c'è un abisso.

Grazie al supporto italiano si potrà comunque chiedere a Siri di generare un ricordo con foto e video utilizzando il linguaggio naturale oppure si potranno cercare fotografie relative a momenti specifici o momenti specifici all’interno dei video.

Per raggiungere questo obiettivo vengono usati più modelli on device che lavorano tra loro: grazie alla comprensione del linguaggio naturale il modello interpreta ciò che l’utente ha chiesto e scrivce una storia basata sulla descrizione fornita. Questo vuol dire che ogni volta che chiediamo di generare un ricordo legato ad un momento particolare ci sarà un arco narrativo unico, tratto tipico di una IA generativa. Poi un altro modello cerca tutte le foto e i video che si adattano al copione, seleziona i migliori e li organizza. Infine, sceglie un titolo e una canzone appropriati. L’utente può anche fornire una serie di suggerimenti per indirizzare la creazione del racconto verso quello che pensa debba essere il risultato finale.

Sarà interessante vedere come funziona la ricerca: teoricamente si può chiedere di cercare tutte le foto dove Marco indossa un costume rosso ed è al mare, ma la quei che si possono fare sono davvero in finite e c’è da capire quanto precisa può essere una ricerca simile, soprattutto sui video. La barra di ricerca è comunque sempre visibile per rifinire la ricerca e ottimizzarla. Qui sotto la prova con una richiesta specifica, neve più snowboard. Ha saltato qualche foto ma un po' le ha trovate.

In ambito foto arriva anche una delle funzioni più richieste di sempre, la gomma magica. Apple la chiama Ripulisci e funziona in locale su ogni foto, che sia scattata dall’iPhone, scaricata da internet o da una fotocamera. Ripulisci usa anche lei due modelli: un primo modello decide quali elementi in una foto possono disturbare suggerendone la rimozione e un secondo modello genera il riempimento. Si può anche cerchiare a mano per rimuovere le imperfezioni più piccole. Il modello generativo di Apple per il riempimento è di tipo content aware fill, ovvero analizza una piccola porzione cerca di ricostruire quella che può essere una texture o una trama costante.

Abbiamo avuto modo di provarlo e il risultato non è assolutamente paragonabile a quello di Google, di Samsung o di Adobe: questi tre lavorano in cloud e lavorano bene, quello di Apple lavora in locale e in qualche caso si difende, in altri casi non riesce ad essere altrettanto efficace.

Ripulisci è efficacissimo dove non deve generare troppi elementi, come in questo caso dove togliamo elementi ma lo sfondo è neve op montagne.

Apri originale

L'originale

Apri originale

La foto con gli elementi eliminati

Qui un caso dove deve ricostruire: il muretto fa fatica. Ricordiamo sempre che è una "beta".

Apri originale

L'originale

Apri originale

La foto con gli elementi eliminati

C’è poi Image Playground, una tavolozza da usare per generare immagini in stile “cartoon” partendo da una descrizione o da una fotografia.

Apple, sapendo che i modelli di IA generativa possono anche “allucinare” e generare immagini ambigue ha scelto di non rischiare e ha messo dei paletti, evitando accuratamente una resa fotorealistica: tutti gli stili sono allegri, giocosi e le immagini generate, se c’è una persona, sono spesso sorridenti e felici.

Lo stesso modello generativo viene usato anche per le Genmoji, emoji generate con una descrizione testuale o partendo da fotografie e immagini di amici e famigliari e per Image Wand, che trasforma uno schizzo grezzo in un’immagine rifinita da usare nelle note.

Le Genmoji saranno disponibili inizialmente su iPhone e iPad ma nei prossimi mesi arriveranno anche su Mac mentre Image Wand è uno strumento che potenzia Apple Pencil ed è integrato negli strumenti di Apple Pencil.

Come nel caso di Galaxy AI anche queste funzioni di Apple Intelligence non sono altro che app o estensioni che arricchiscono l’uso di altre app, e alcune di queste, come i Writing Tools, sono disponibili per tutte le app che usano la tastiera di default.

Gli strumenti di scrittura permettono di riscrivere un testo con un tono diverso, correggere gli errori ortografici o riassumerlo, e questo viene fatto usando il modello in locale se il testo è breve, usando il modello in cloud se il testo è lungo oppure, se l’utente vuole, usando ChatGPT.

Sulla correzione al momento fa qualche errore e dimentica qualche refuso, segnalando come errato qualcosa che invece non lo è. Una beta, non possiamo dare giudizi.

Il modello di IA più famoso si integra con Apple Intelligence in due situazioni, e gli strumenti di scrittura sono una di queste: mentre il modello Apple elabora testi nostri, con ChatGPT è possibile ampliare contenuti o aggiungere parti di testo. Non serve account, ma una persona che paga la versione “premium” di ChatGPT può collegare il suo account sbloccando così tutte le potenzialità.

Apple Intelligence arriva anche nel client di posta, evidenziando le email più urgenti e proponendo il riassunto delle mail più lunghe e anche nelle notifiche, dove vengono riassunte le notifiche più importanti.

Un esempio di email
Il riassunto fatto con Apple Intelligence

Con iOS 18.3 Apple ha disabilitato il riassunto delle notifiche per certi tipi di notifiche, come quelli relativi alle news, perché creava allucinazioni, quindi al momento c’è la funzione ma non copre tutti i tipi di notifica.

Arrivano poi, e potremmo dire finalmente, alcune funzioni che Google e molti altri produttori propongono da tempo: è possibile registrare e trascrivere una chiamata in diretta e ottenere un riassunto con Apple Intelligence e dalle note ci sarà la registrazione e la trascrizione audio direttamente nell’app, con generazione automatica di riassunti.

Una delle novità legate ad Apple Intelligence che Apple non ha mostrato alla WWDC lo scorso anno ma ha introdotto insieme ad iPhone 16 e insieme al Camera Control Button è Visual Intelligence. Anche lei in locale, Visual Intelligence è un primo accenno di intelligenza artificiale multimodale e integra nella fotocamera, sul feed live, alcune funzionalità che fino ad oggi Apple già offriva ma sulle foto nel rullino.

Basterà premere il tasto laterale dedicato a Visual Intelligence, o l’Action Button nel caso di iPhone 16e e in base al soggetto inquadrato si potranno avere informazioni su oggetti e luoghi in tempo reale, riassumere un testo inquadrato o leggere un testo ad alta voce, tradurre una scritta, ottenere informazioni si animali e piante e riconoscere numeri di telefono o email.

A queste informazioni, che vengono elaborate sul dispositivo e senza accesso al cloud se ne aggiungono due che invece si appoggiano a servizi esterni ed è l’utente ovviamente a sceglierlo: si può usare la ricerca Google per acquistare un oggetto o ChatGPT per approfondimenti su un argomento.

Nuove api per gli sviluppatori

Rispetto ad altre soluzioni Apple è più flessibile nel rapporto con gli sviluppatori: le api dei suoi modelli sono liberamente disponibili per chi sviluppa app e si possono quindi usare i modelli già presenti sul dispositivo, senza farne scaricare altri o senza spese per il cloud da parte degli sviluppatori. Oggi uno sviluppatore che deve effettuare un riassunto all’interno di un’app deve usare o un servizio esterno oppure deve integrare un modello nell’app, con un costo anche in termini di peso dell'app notevole. Ogni app, con modelli LLM, potrebbe arrivare a pesare fino a 4 GB e Apple vuole evitare di trovarsi davanti a app giganti che magari hanno all'interno gli stessi identici modelli. In questa beta vengono così aggiunte nuove api come ImageCreator, per fare disegni, una nuova api per riassumere testi e la Smart Reply Api che suggerisce risposte in base al contesto: sono sfruttabili gratis e sono condivisi.

Ancora una beta. La vera IA sul telefono è ancora lontana

Come abbiamo scritto la vera svolta si dovrebbe avere con l’evoluzione di Siri: nei prossimi aggiornamenti Siri inizierà a lavorare sul contesto personale e sulle azioni nelle app. Apple ha chiesto lo scorso anno agli sviluppatori di aggiungere nelle loro app gli intenti e le azioni, in pratica a chiesto a ogni sviluppatore di definire a che dati Siri può accedere e cosa può fare Siri, e moltissime app in questi mesi sono state modificate per questo. Vedremo se tutto funzionerà come Apple ha mostrato alla WWDC oppure no: abbiamo assistito in questi anni a tante demo fantastiche che poi, in un contesto più reale, si sono dimostrate molto più limitate. 

Arriveranno anche nuove funzioni per Visual Intelligence, come la possibilità di aggiungere automaticamente un appuntamento o un evento facendo la foto ad un volantino o ad un poster: l'esperienza multimodale è forse più importante di quella vocale anche se un paio di occhiali come quelli di Meta sono forse più indicati per questo tipo di utilizzo.

Ad oggi Apple Intelligence porta l'iPhone alla pari di quanto può fare un Samsung Galaxy: gestione testi, creazione foto, riassunti, registrazioni audio. Lo fa in locale, e non possiamo dire che non si sente: hai il vantaggio di un funzionamento offline e di latenza minima ma hai lo svantaggio di un impatto a livello di risorse e di sfruttamento del SoC, quando si usa l'IA il retro del telefono è tiepido.