Recensione Mac Studio con M3 Ultra. La workstation perfetta per l’IA

Abbiamo provato la versione più potente di Mac Studio, quella con il nuovo processore M3 Ultra. I dati confermano che si tratta del Mac più potente oggi sul mercato, ma per molte situazioni potrebbe non essere la scelta migliore. In ambito IA locale non ha rivali grazie alla memoria unificata che arriva a 512 GB.

di Roberto Pezzali - 11/03/2025 16:22 0

L’8 marzo 2022, durante l’evento “Peek Performance”, Apple annunciò il suo Mac Studio e con lui anche il processore M1 Ultra. Ai tempi si trattò di una vera sorpresa perché M1 Max era già un processore enorme e difficile da produrre, 57 miliardi di transistor, e con la tecnologia produttiva a 5 nanometri era davvero difficile spingersi oltre. Apple lo fece, passando da un chip monolitico ad un qualcosa che non può neppure essere definito un chiplet, due "die" uniti tra loro da una connessione diretta die-to-die con una banda da 2,5 TB/s, l’UltraFusion, che viene visto come un unico chip dal sistema e dalla memoria unificata.

Poco più di un anno dopo Apple rinnovò il Mac Studio alla WWDC insieme ai processori M2 Max e M2 Ultra, seguendo la stessa logica: da una coppia di M2 Max Apple creò un potentissimo M2 Ultra che poteva gestire fino a 192 GB di memoria unificata, record nella categoria.

Poi c’è stata una pausa nel ciclo di rinnovamento annuale: niente Mac Studio nel 2024, si passa al 2025 con la terza generazione, quella che stiamo per provare.

Un Mac Studio che stravolge la routine alla quale eravamo abituati: c’è M4 Max, quindi il processore più recente che abbiamo provato a fine 2024 sul MacBook Pro da 16” ma non c’è M4 Ultra. Al suo posto a sorpresa un M3 Ultra, processore creato da due M3 Max.

Abbiamo fatto questa premessa perché proprio attorno al dualismo tra M3 Ultra e M4 Max si gioca questa prova, e come vedremo la versione M3 Ultra potrebbe non essere la più indicata in molte situazioni, nonostante sia comunque quella più potente.

Il nodo della questione, ma lo vedremo meglio poco più sotto, è se le prestazioni di M3 Ultra, quindi un SoC che nasce comunque da una architettura ormai superata, siano così superiori rispetto a quelle di un M4 Max da giustificare i 2200 euro che Apple chiede in più per avere il Mac Studio con questo processore.

Il Mac Studio M4 Max con CPU 16‑core, GPU 40‑core, Neural Engine 16‑core, 128GB di memoria unificata e unità SSD da 1TB costa infatti 4.674 euro mentre la versione con M3 Ultra, CPU 32‑core, GPU 80‑core, Neural Engine a 32‑core e “solo” 96GB di memoria unificata viene 6.974 euro.

Ricordiamo comunque che il Mac Studio, nella sua versione base con chip “binned” parte da 2.549 euro ed è un’ottimo prezzo di partenza per questa macchina, in virtù anche della connessione Thunderbolt 5 che facilita la connessione di dischi esterni (l’upgrade dell’SDD interno costa come sempre troppo).

La video recensione del Mac Studio con M3 Ultra

M3 Ultra, 184 miliardi di transistor e 512 GB di RAM

Tutti si aspettavano M4 Ultra, invece è arrivato M3 Ultra: M3 Ultra rappresenta l’unione di due processori M3 Max, quindi un SoC che Apple ha annunciato nell’ottobre del 2023 basato sul primissimo processo produttivo a 3 nanometri di TSMC, N3B.

I più attenti si saranno accorti che ci sono due elementi che stonano: il supporto a 512 GB di memoria unificata e la presenza del controller Thunderbolt 5.

M3 Max supportava 128 GB di memoria massima, con un bus di memoria da 512 bit e 400 GB/s di banda, M3 Ultra dovrebbe gestire quindi 256 GB e invece ne supporta quattro volte tanto, 512 GB. Servono moduli di memoria più densi, ma serve anche una modifica al controller che deve essere in grado di gestire molti più indirizzi.

M3 Max aveva poi un controller Thunderbolt 4, M3 Ultra invece ha un controller Thunderbolt 5 e nel caso di Apple Silicon il controller è interno al SoC. Com'è possibile?

Possiamo fare due ipotesi: la prima è che M3 Ultra non sia l’unione di due chip M3 Max come li conosciamo oggi, ma di una versione revisionata di M3 con un controller Thunderbolt 5 e un controller diverso per la memoria, la seconda è che M3 Max era già un po’ più avanzato di quanto ci hanno detto fino ad oggi. La risposta corretta è la seconda, e Apple ce lo ha confermato.

Apple, come tutte le aziende, progetta i processori con largo anticipo e fa parte sia del consorzio USB sia del gruppo di sviluppo Thunderbolt con Intel: la famiglia M3 aveva già all’interno un controller programmabile capace di supportare il futuro (ormai presente) Thunderbolt 5 oltre ad un controller di memoria strutturato per gestire moduli RAM più densi.

Chi si stesse chiedendo perché allora non viene sbloccato Thunderbolt 5 anche sugli altri prodotti della famiglia M3 la questione è semplice: il supporto a livello di controller non basta per garantire che sulle porte arrivi un segnale capace di trasportare i 120 Gbps che Thunderbolt 5 supporta in una direzione e gli 80 Gbps che gestisce in modalità bidirezionale, servono filtri, serve schermatura e bisogna quindi adeguare il percorso che va dal SoC alla porta fisica.

Senza questi elementi il solo controller non raggiungerà mai certe velocità e non può pertanto essere certificato: trattandosi di una workstation “pro” l’affidabilità e la compatibilità passano in primo piano. Nel caso del processore Ultra tutte le porte, sia frontali che posteriori sono Thunderbolt 5; la versione M4 Max ha le porte frontali USB.

Sulla versione con chip Ultra anche le porte frontali sono Thunderbolt 5

Tornando al processore, trattandosi di due M3 Max uniti tra di loro da Ultrafusion troviamo all’interno una CPU a 32 core con 24 core ad alte prestazioni e 8 core ad alta efficienza, 80 core grafici e 32 core neural engine. Apple fa i confronti con M1 Ultra e M2 Ultra, e in questo caso c’è un salto enorme a livello di prestazioni dato non solo dal passaggio ai 3 nanometri ma anche all’uso di nuovi core grafici con acceleratori ray tracing e mesh shading, dynamic cache.

Tuttavia, come abbiamo visto più sopra, oltre al confronto con i modelli precedenti per chi ha un vecchio M1 Ultra (e sta pensando di cambiarlo) è utile in questo caso anche il paragone con M4 Max, che abbiamo già conosciuto, perché in molti casi potrebbe convenire il primo in altri il secondo.

Le differenze non sono enormi: se prendiamo ad esempio la CPU, nonostante il raddoppio del numero di core, l’architettura molto più recente di M4 e anche la velocità superiore del singolo core di M4 ci mettono davanti ad un gap decisamente ridotto tra le due soluzioni.

In single core M4 Max è più veloce di M3 Ultra, mentre in multicore M3 Ultra è più veloce, ma non fa segnare un punteggio drasticamente più alto come invece è capitato quando abbiamo provato M1 Ultra e M2 Ultra e li abbiamo confrontati con i rispettivi “Max”.

Si tratta quindi di fare una considerazione in base alle proprie necessità, perché sebbene oggi la maggior parte delle suite sia ottimizzata per sfruttare tutti i core, e quindi M3 Ultra avrebbe vantaggi rispetto a M4 Max, ci sono ambiti dove si usa ancora un solo core e M4 Max potrebbe essere una scelta migliore.

Final Cut Pro, DaVinci Resolve, Blender, Cinema 4D, Logic Pro (molte tracce e plugin usano più core), Ableton Live, Xcode, Visual Studio Code, TensorFlow e PyTorch sono tutti ottimizzati per un utilizzo multicore, ma se prendiamo ad esempio Lightroom molte operazioni come la navigazione nel catalogo (scorrere le immagini, ingrandire, cambiare foto), le modifiche (es. cambiare esposizione, contrasto, colori) e la gestione del database delle immagini usano ancora oggi un solo core. Come molti interpreti (Python, PHP, Ruby, JavaScript) sono single-threaded per natura, e solo in determinate configurazioni possono sfruttare più core. Oltre ad operazione come installazione delle app, salvataggi file, reattività: M4 Max in questi casi può risultare più veloce.

Lightroom è la tipica app che sfrutta poco il multithread e beneficia delle prestazioni di M4 Max

Non è invece più veloce, anche se potrebbe sembrarlo, quando si tratta di IA. Se guardiamo al Neural Engine Apple, quando ha presentato M4, ha detto che con 38 TOPS (Trillioni di operazioni al secondo) il Neural Engine di questo processore è più del doppio più veloce rispetto a quello di M3, che si ferma a 18 TOPS. Si potrebbe pertanto desumere che, nonostante su M3 Ultra il neural engine abbia 32 core, questi 32 core non vadano più veloce dei 16 core di M4 Max.

In realtà qui c’è una precisazione da fare: la velocità di 38 TOPS del Neural Engine di M4 è dovuta esclusivamente al supporto per modelli con quantizzazione INT8 da parte di quest’ultimo, mentre i 18 TOPS di M3 erano misurati con modelli FP16, quindi più precisi. A parità di modello M3 Ultra va il doppio più veloce di M4 Max, e questo si può vedere con alcuni modelli alla base di Apple Intelligence e con alcune app che permettono di usare esclusivamente gli acceleratori neurali, senza il supporto della GPU.

Infine c’è la GPU: ci troviamo davanti a 80 core grafici con accelerazione hardware ray tracing, e M3 Ultra è senza alcun dubbio il processore Apple Silicon con più core grafici avanzati in commercio. Vogliamo partire proprio dalla GPU, perché è l’aspetto dal quale ci aspettiamo ovviamente qualcosa in più e non solo a livello grafico, ma anche per quanto riguarda l’accelerazione AI.

Quanto fa forte e quanto consuma il Mac Studio con M3 Ultra

Quando abbiamo provato M4 Max avevamo titolato un paragrafo “Il processore M4 Max è un primo deciso passo nel territorio sacro di NVIDIA”. Per arrivare a queste conclusioni ci eravamo basati su Redshift, uno dei motori di rendering ray tracing più utilizzati e avevamo confrontato i risultati ottenuti da diverse schede NVIDIA e da M4 Max. La scena Vultures di Reshift, per un rendering ray tracing su M4 Max, richiede 2 minuti e 35 secondi, la RTX 5090 che abbiamo provato di NVIDIA ci mette esattamente 1 minuto e due secondi, la RTX 4090 1.16” mentre la RTX 4080 super impiega 1.39 secondi.

L’M4 Ultra che ad oggi non esiste (era solo una nostra ipotesi, se esiste è nei laboratori Apple), considerando il doppio dei core e il modo in cui scala il processore avrebbe dovuto metterci attorno al minuto e venti secondi, quindi quanto la RTX 4090, ma consumando decisamente meno. Di qui il nostro titolo.

M3 Ultra, invece, ci mette 2 minuti e 4 secondi circa: il consumo resta sempre più basso di una soluzione NVIDIA, ma per renderizzare la scena con 80 core ci mette il doppio di quanto ci mette una RTX 5090. Consuma meno, ma il gap al posto di ridursi si amplia, e questo non sarebbe successo se avessimo avuto M4 Ultra o se Apple avesse spinto un po’ di più questo M3 Ultra.

V-Ray: il paragone con CUDA lo posiziona come velocità vicino alla 3090

Situazioni analoghe si possono trovare anche con altri software, da V-Ray a Blender. In V-Ray gli 80 core di M3 Ultra fanno segnare un consumo di 155 Watt circa durante il benchmark, e il risultato posiziona M3 Ultra vicino alla 3090 RTX.

In Blender siamo su livelli superiori rispetto alla RTX 3090 ma non siamo al livello della 4090. Apple vince nel rapporto prestazioni consumi, NVIDIA vince nelle pure prestazioni.

Attenzione però, perchè in ambito 3D ci sono ovviamente il rendering e la velocità di output da considerare ma non ci si può dimenticare della quantità di memoria. La memoria allocata alla GPU serve per memorizzare texture, mesh, illuminazione e shader mentre si lavora sulla viewport e rispetto ad una workstation NVIDIA il Mac Studio grazie a 256 GB (o 512 GB) di VRAM ha una migliore gestione di scene complesse, con texture in alta risoluzione e modelli dettagliati senza rallentamenti. Nel caso della GPU NVIDIA se la VRAM si satura, il software passa alla RAM di sistema, che è più lenta, causando cali di prestazioni.

Per quanto i benchmark dicano che NVIDIA è più veloce in ambito 3D bisogna considerare anche tutta la fase di lavoro, ovviamente con applicativi cross-platform: abbiamo visto in Blender o in Cinema 4D che lavorare sul Mac Studio vuol dire avere una viewport rapidissima e fluida, mentre NVIDIA con diverse app ora ricorre al DLSS e al frame generation proprio per garantire a chi lavora quella fluidità che si aspetta con modelli e scenari complessi.

Non c'è un vincitore netto: il Mac con 256 GB di memoria unificata può gestire scene gigantesche senza esaurire memoria, evitando rallentamenti, ma nel rendering ray tracing una NVIDIA con 32 GB di VRAM dedicata come la RTX 5090 è nettamente più veloce, perché la memoria è ottimizzata per il calcolo parallelo e ha molta più banda.

Complessivamente rispetto a M4 Max, in ambito GPU, con M3 Ultra c’è un incremento di prestazioni variabili dal 25% al 30% circa a seconda del software utilizzato.

Differente invece il caso del video, dove la presenza di due die uniti dal bridge UltraFusion porta anche ad un aumento del numero di encoder e decoder.

Come si può vedere nella tabella sotto usando Da Vinci Resolve il guadagno in molte situazioni è consistente, ed è dovuto principalmente all’aumento delle prestazioni dell’encoder / decoder, all’aumento del numero di Encoder / decoder e anche all’aumento di core GPU perché DaVinci per moltissimi effetti grafici e per l’IA usa comunque Metal, quindi GPU.

Meno marcato forse, tranne in qualche caso particolare, il passaggio da M2 Ultra a M3 Ultra.

Mac Studio con M3 Ultra è quindi meglio di Mac Studio con M4 Max per chi fa editing? Si, senza dubbio, ma l’aumento di prestazioni è fruibile solo da chi lavora con certi codec e ad elevate risoluzioni, grazie al numero di Encoder / decoder superiore; la maggior parte degli utenti potrebbe trovare in M4 Max una soluzione più bilanciata.

	Test	Setting	M4 Max (fps)	M3 Ultra (fps)	M2 Ultra (fps)
0	Encoding - H.264 50Mbps 8-bit UHD	LongGOP	97.36	157.84	142.02
1	Encoding - HEVC 50Mbps 8-bit UHD	LongGOP	109.01	175.62	162.1
2	Encoding - HEVC 60Mbps 10-bit UHD	LongGOP	108.51	158.7
3	Encoding - DNxHR LB UHD	Intraframe	225.56	373.07	232.12
4	Encoding - DNxHR SQ UHD	Intraframe	244.73	330.92	222.73
5	Encoding - DNxHR HQX UHD	Intraframe	196.3	282.19
6	Processing - 4K H.264 150Mbps 420 8-bit	LongGOP	257.7	282.19	277.16
7	Processing - 4K HEVC 100Mbps 422 10-bit	LongGOP	228.65	257.02
8	Processing - 8K HEVC 100Mbps 420 8-bit	LongGOP	160.12	159.28
9	Processing - 4K ProRes 422 Proxy	Intraframe	564.6	561.09	430.45
10	Processing - 4K ProRes 422	Intraframe	563.72	570.86
11	Processing - 4K DNxHR LB	Intraframe	272.28	434.34	308.52
12	Processing - 4K DNxHR SQ	Intraframe	276.78	400.78	276.14
13	Processing - 4K Cinema RAW Light ST	RAW	135.59	218.51
14	Processing - 4K ARRIRAW	RAW	152.41	140.3
15	Processing - 5K Sony X-OCN	RAW	101.73	149.13
16	Processing - 4.6K BRAW	RAW	209.39	227.95
17	Processing - 4K RED	RAW	75.74	132.0	90.77
18	Processing - 8K RED	RAW	26.35	48.86
19	GPU Effects - Temporal NR (2 Frames Better) x3	GPU Effects	9.43	13.16
20	GPU Effects - Temporal NR (2 Frames Better)	GPU Effects	31.34	42.46	42.56
21	GPU Effects - Film Grain	GPU Effects	38.86	62.59	28.89
22	GPU Effects - Spatial NR (Better)	GPU Effects	43.38	43.52	38.97
23	GPU Effects - Lens Blur x5	GPU Effects	14.94	23.9	16.74
24	GPU Effects - Lens Flare	GPU Effects	62.38	75.92	72.53
25	GPU Effects - Optical Flow (50% Enhanced Better)	GPU Effects	32.62	44.94	40.18
26	GPU Effects - Sharpen x3	GPU Effects	14.87	24.06
27	GPU Effects - Color Node x30	GPU Effects	179.04	213.0	132.51
28	Fusion - 3D Backlit Text	Fusion	16.09	14.95	13.15
29	Fusion - 3D Lower 3rd	Fusion	123.09	135.31
30	Fusion - 3D Title	Fusion	43.94	41.62	34.95
31	Fusion - Digital Glitch	Fusion	11.28	11.3	8.79
32	Fusion - Phone Composite UHD	Fusion	58.87	67.4	61.35
33	Fusion - Turbulant Particles	Fusion	14.08	11.01
34	AI - Super Scale (2x Medium)	AI	28.86	47.23
35	AI - Face Refinement	AI	20.47	23.99
36	AI - Person Mask (Faster)	AI	17.84	28.67
37	AI - Person Mask (Better)	AI	7.42	11.62
38	AI - Depth Map (Faster)	AI	57.25	84.26
39	AI - Depth Map (Better)	AI	14.66	18.93
40	AI - Relight	AI	4.97	7.01
41	AI - Optical Flow (50% Speed Warp)	AI	2.67	4.6
42	AI RunTime - Audio Transcription	AI	8.38	8.01
43	AI RunTime - Video Stabilization	AI	383.18	364.91
44	AI RunTime - Smart Reframe	AI	408.0	632.59
45	AI RunTime - Magic Mask Tracking (Faster)	AI	18.27	26.11
46	AI RunTime - Magic Mask Tracking (Better)	AI	12.31	19.45
47	AI RunTime - Create Subtitles from Audio	AI	14.4	12.45
48	AI RunTime - Scene Cut Detection	AI	977.27	811.5

Qui sotto invece il caso che dicevamo prima, Photoshop: tranne alcune operazioni l’editor fotografico di Adobe predilige il single core e parallelizza pochissimo, lo fa solo in alcune azioni su più file. Lavorando su una singola foto si vede come M4 Max sia praticamente più veloce di M3 Ultra in quasi tutte le operazioni. M4 Max è la scelta migliore per un fotografo.

	Test	Setting	M3 Ultra (secondi)	M4 Max (secondi)
0	File Open - RAW	General	0.93	0.87
1	Resize to 150MP - Preserve Details	General	1.53	1.33
2	Resize to 150MP - Bicubic Smooth	General	0.33	0.24
3	Rotate	General	0.58	0.55
4	Select Subject	General	1.93	1.67
5	Select and Mask	General	2.42	1.89
6	Convert to Smart Object	General	1.16	1.1
7	Paint Bucket	General	0.98	0.83
8	Smudge Tool	General	10.76	7.96
9	Adaptive Wide Angle	Filter	33.78	23.53
10	Camera Raw	Filter	1.76	1.35
11	Lens Correction	Filter	9.67	6.9
12	Content Aware Fill	Filter	7.77	5.66
13	Reduce Noise	Filter	3.93	3.62
14	Smart Sharpen	Filter	1.42	1.38
15	Iris Blur	Filter	5.41	4.17
16	Field Blur	Filter	4.92	3.29
17	File Save - JPG	General	1.15	0.93
18	File Save - PNG	General	45.65	42.61
19	File Save - PSD	General	21.49	19.47
20	File Open - PSD	General	4.42	3.9

E il gaming? Rimandato a Cyberpunk

Ci sarebbe anche un capitolo “gaming”: quando Apple ci ha mostrato il Mac Studio ci ha fatto anche vedere una build preliminare di Cyberpunk. Il gioco di CD Project Red sarebbe un ottimo ambiente di prova per capire a che punto è arrivata Apple come prestazioni rispetto alle soluzioni Windows, tuttavia non abbiamo avuto modo di provarlo, non ci è stata data alcuna build “demo” e ci è stato detto che arriverà più avanti nel corso dell’anno.

Neppure di Assassin’s Creed Shadows, previsto tra una decina di giorni, Ubisoft distribuisce codici per le versioni Mac in anteprima, pertanto non siamo stati in grado di provare il Mac Studio con due titoli che ne avrebbero fatto capire il potenziale.

Questo non è un computer da gaming, ma ci torneremo non appena i due titoli saranno disponibili. Unica prova che abbiamo fatto Myst, gioco molto vecchio ma con ray tracing: consumi bassi, attorno ai 120 Watt, e massima qualità (epica) con un buon frame rate. Non può comunque essere preso come riferimento.

I consumi sono come sempre bassissimi

Per quanto riguarda i consumi ci troviamo davanti al solito capolavoro di efficienza. Al posto di utilizzare il classico script che legge i dati dalle api, in questo caso inaffidabile (segnava la metà e non sappiamo se è un bug di macOS) abbiamo voluto questa volta fare un test più pratico. Abbiamo usato una wattmetro e abbiamo misurato il consumo in idle del Mac Studio sottraendo il consumo di base al consumo a pieno carico.

Quando è acceso, anche se usiamo un browser, il Mac Studio consuma pochissimo: dai 6 Watt ai 15 Watt. Rispetto ad una workstation Windows non c’è paragone.

Un singolo core ad alte prestazioni arriva a consumare circa 15 Watt di picco, ma se vengono usati tutti insieme la potenza massima assorbita su presa è di 140 Watt, quindi attorno ai 130 Watt totali per il comparto CPU. Stiamo parlando di una CPU da 32 core, il rapporto consumi prestazioni resta eccezionale.

Durante il rendering con RedShift gli 80 core GPU arrivano a consumare anche loro attorno ai 145 Watt: una NVIDIA RTX di pari categoria consuma attorno ai 250 Watt, quindi il doppio. Solo in un caso il Mac Studio arriva a prelevare 280 Watt su presa, ovvero quanto lo usiamo con un modello LLM andando a occupare quasi tutta la memoria, facciamo un rendering 3D insieme e compiliamo un progetto: nonostante questo la ventola si fa sentire pochissimo, la scocca è appena tiepida e la dissipazione regge benissimo.

Il Mac durante un rendering CPU con tutti i core attivi

Il Mac durante un rendering GPU con tutti i core attivi

La prima parte è la sessione di gioco con Myst, poi la combo rendering, LLM, code compile dove tocca i 280 Watt.

A questo punto sorge una domanda: per quale motivo Apple, sapendo che comunque stava proponendo un M3 Ultra che non poteva avere prestazioni nettamente superiori a M4 Max, non ha scelto di sacrificare un po’ del suo rapporto prestazioni consumi per spingere un po’ di più M3 Ultra?

Possibile che non si riuscisse a aumentare un po’ la frequenza di clock, anche a costo di sentire un po’ di più la ventola, per strappare performance migliori? Crediamo che nessuno si sarebbe lamentato di una opzione “turbo” che portasse il consumo a 450 Watt con un aumento delle prestazioni CPU e GPU del 15% circa.

L’alimentatore all’interno gestisce comunque fino a 550 Watt, e possono esserci casi, lo abbiamo visto sopra, dove CPU e GPU vengono usati insieme e il consumo totale della macchina sale passando anche i 250 Watt.

Tanti core e tanta memoria, lo sviluppatore apprezza

Vale la pena comprare il Mac Studio con M3 Ultra per sviluppare? Dipende. Se guardiamo alla pura compilazione del codice o al tempo di esecuzione dei test, dove vengono usati tutti i core della CPU, ci troviamo davanti alla prova su strada di quanto visto nei benchmark poco più sopra: il progetto campione di Xcode che su M4 Max viene compilato in 77 secondi su M3 Ultra richiede 67 secondi.

M3 Ultra si dimostra quindi più veloce, ma non così drammaticamente veloce. M3 Max, per fare un paragone, ne richiedeva 91 di secondi.

Il coding ha tuttavia mille sfaccettature e mille esigenze diverso: nel nostro caso, ad esempio, siamo soliti lavorare con più ambienti che emulano i server che abbiamo in produzione pertanto eseguiamo diverse macchine virtuali su Parallels Desktop in contemporanea.

Abbiamo alcune VM Linux Ubuntu e anche una VM Windows 11, e ad ogni macchina è possibile assegnare un tot di risorse in termini di core CPU e RAM. Solitamente allochiamo 4 core per ogni macchina, e se un processore ha pochi core questo limita le possibilità di eseguire insieme più VM.

Il numero di core CPU di M3 Ultra, anche se i singoli core non sono veloci come i singoli core di M4 Max, permette più flessibilità da questo punto di vista e possiamo anche allocare 10 core ad una sola VM avendo spazio per eseguire in contemporanea altre due macchine virtuali.

L’IA è il vero motivo per scegliere M3 Ultra

Crediamo che, arrivati a questo punto, si sia capito che tra M3 Ultra e M4 Max se pensiamo alla creatività, alla musica, alla programmazione, alla foto e al video nella maggior parte dei casi consiglieremmo ad una persona di risparmiare e prendere la versione con M4 Max: abbiamo già apprezzato il processore nella prova con il MacBook e siamo convinti che per questo target M4 Max rappresenti di gran lunga la scelta migliore, abbinato a 128 GB di RAM.

Con l’IA però cambia tutto, e siamo convinti che lo sappia anche Apple: nell’ultimo anno l’architettura di memoria unificata è stato l’elemento che ha spinto ricercatori e sviluppatori a dotarsi di un Mac anche solo per gestire l’IA a livello locale.

NVIDIA a breve presenterà il suo Digits, un piccolissimo computer da scrivania con a bordo Blackwell, ma Digits lavorerà a FP4, quindi a bassa precisione, avrà solo 128 GB di VRAM e sarà orientato al training dell’IA piuttosto che all’inferenza, quindi all’utilizzo dei modelli.

Apple invece si candida come soluzione perfetta per l’inferenza a basso costo e una coppia di Mac Studio con M3 Ultra e 512 GB di RAM, uniti in cluster con soluzioni come Exo, possono ad esempio gestire un modello come DeepSeek R1, non quantizzato, in casa. Può non stupire la cosa, ma è incredibile se si guarda in modo più ampio.

ComfyUI: l'abbiamo usata per generare immagini con Flux.dev e con diversi modelli text to image

Cerchiamo di spiegare meglio per chi non è così pratico.

Quando si esegue un modello IA oggi il processore più idoneo a farlo è la GPU (di qui il successo di NVIDIA) e per questo motivo i parametri devono risiedere nella memoria di quest’ultima (nel caso di Apple, nella cosiddetta memoria unificata, che funge sia da memoria CPU che GPU).

Se un modello richiede più parametri di quanti ne possano essere contenuti in memoria, diventa necessario suddividerlo in più parti o adottare tecniche più complesse di streaming dei dati, con conseguente calo di prestazioni. Avere 512GB di memoria in una singola macchina permette di gestire modelli di dimensioni molto elevate direttamente in locale, senza dover ricorrere a soluzioni cloud più costose. Giusto per capire qual è oggi la situazione possiamo vedere come si posizionano le diverse soluzioni sul mercato: NVIDIA H100, 80GB di memoria alla velocità di 3TB/s, costa circa 33.000 euro, AMD MI300X con 192GB di memoria a 5,3TB/s costa circa 26.000 euro mentre Apple M3 Ultra con 512GB di memoria a 800GB/s, costa circa 12.000 euro.

Se confrontiamo il costo per GB, l’M3 Ultra risulta in assoluto la soluzione più economica pur restando inferiore nelle pure prestazioni di velocità di memoria rispetto alle soluzioni NVIDIA e AMD.

Tuttavia oltre alla quantità di memoria, per gestire modelli IA in locale, deve essere considerata anche la banda di memoria, cioè la velocità con cui i dati possono essere letti e scritti.

Più elevata è la banda e più rapidamente il sistema può gestire richieste (token) in sequenza, specialmente se il modello utilizza tutta la memoria in modo denso (senza “sparsità”). Per fare un esempio pratico: se abbiamo un modello talmente grande da riempire tutti i 512GB, con una banda relativamente bassa ci metteremo più tempo a trasferire tutti quei dati in un singolo passaggio di calcolo.

DeepSeek distillato da LLama 70b eseguito a 5 tokens al secondo in LM Studio

A questo punto molti si chiederanno perché ad Apple basta “meno banda” se ha così tanta memoria, e qui entra in gioco il concetto di sparsità del modello, come nelle Mixture-of-Experts (MoE), ad esempio DeepSeek.

In queste architetture, il modello è suddiviso in tanti “esperti” (expert), ma a ogni passaggio ne vengono attivati solo alcuni (ad esempio 8 su 256). Se, in ogni istante, il calcolo coinvolge solo una piccola porzione del modello, la banda di memoria richiesta è minore.

Al giorno d’oggi, proprio perché l’hardware consumer non ha la larghezza di banda di molte soluzioni per datacenter, la maggior parte dei modelli open è progettato per avere una bassa percentuale di parametri attivi (sparsità) e a questo punto la quantità di memoria diventa il vero parametro fondamentale e l’ampiezza di banda passa in secondo piano, perché non devo trasferire tutti i parametri contemporaneamente.

I 512GB di memoria su un Mac Studio M3 Ultra rappresentano una svolta, e possono potenzialmente trasformare l’esperienza di chi è in grado di combinare le sue capacità con l’utilizzo degli LLM.

Ollama trasforma il Mac Studio in un server AI

Nel nostro caso abbiamo installato sul Mac Studio Ollama e abbiamo scaricato alcuni modelli tra i quali l’abilissimo Qwen 2.5 Coder da 32 miliardi di parametri, LLama e DeepSeek distillato su LLama.

Utilizzando Continue, una estensione di Visual Studio Code, abbiamo integrato il nostro IDE di codice con il modello LLM gestito da Ollama e abbiamo chiesto di creare i test per diversi modelli dell’applicativo Rails che gestisce DDay. Abbiamo anche chiesto di rivedere alcuni metodi per renderli più efficienti e di scrivere nuovi modelli.

Continue interagisce con il server in locale di Ollama che riceve il prompt, lo gestisce e lo restituisce direttamente nell’editor facilitando di gran lunga il lavoro. Nel video si può vedere un esempio di come lavora.

Lo abbiamo fatto sulla macchina in locale, ma niente esclude di lasciare un Mac Studio acceso in sala server con diversi modelli caricati e una istanza server attiva che tutti i client di una software house possono richiamare, in rete locale, usando una classica chiamata api rest. A tendere molte aziende useranno questa soluzione, molto più economica dei vari abbonamenti a servizi IA e soprattutto privacy oriented.

L’esempio del coding è solo uno dei tanti che si può fare: Cinema4D, ad esempio, può essere gestito tramite script Python e lavorando con gli script e richiamando il nostro server IA locale (sempre Ollama) possiamo chiedere di realizzare oggetti 3D, assegnare materiali e posizionare nella scena elementi disegnati dal modello LLM. Possiamo anche chiedere di modificare elementi della scena o di creare varianti.

Abbiamo chiesto a Ollama di creare un modello di sfera tramite script Python dentro Cinema4D

Una tendenza, quella dell’integrazione "app - modello LLM locale" che abbiamo visto in tante altre app professionali: molte aziende stanno proponendo plugin per far dialogare le singole applicazioni con istanze AI in cloud o locali, offrendo così una alternativa alle soluzioni proposte dalle aziende che hanno creato il software.

Ci sono ad esempio plug-in per Photoshop che permettono di usare backend di creazioni immagini o di upscaling in locale: Photoshop usa Firefly, che è di sua proprietà, ma tramite i plugin possiamo usare Flux, o Stable Diffusion o uno dei tanti modelli Text-to-image presenti oggi.

Ci sono poi plugin per Resolve o Premiere che usano modelli più efficienti e precisi per la titolazione o la manipolazione dei testi, plugin per gli IDE che forniscono funzioni come l’autocomplete o il debug del codice.

Insomma, la versione M3 Ultra del Mac Studio è una soluzione che non ha oggi eguali per chi deve lavorare con modelli LLM di grandi dimensioni, in locale e con più modelli contemporaneamente, perché se è vero che Ollama non può gestire più modelli insieme (sempre che non si usino container) si può comunque caricare un modello in Ollama e uno il LM Studio.

Le prestazioni sono assolutamente buone: DeepSeek da 70 miliardi di parametri gira a circa 5 tokens al secondo e se si scende ad un modello da 32b, come Qwen Coder 2.5, si toccano i 13/14 tokens al secondo.

Il quotidiano dell'hi-tech

DDAY.it