Dopo averli presentati a gennaio nel corso del CES, NVIDIA ha annunciato la disponibilità pubblica dei NIM, gli NVIDIA Inference Microservices, una nuova tecnologia che consente di eseguire in locale, su PC e workstation dotati di GPU RTX, microservizi di intelligenza artificiale preconfigurati.
In verità i NIM sono una realtà da almeno il 2024, quando erano stati mostrati come strumenti per gli sviluppatori, accostati anche alla realizzazione di personaggi che potessero interagire con videogiocatori in modo più naturale.
Nel 2025 parleremo con i videogiochi. I personaggi di Mecha BREAK usano l’IA per interagire con il giocatore
In sostanza, i NIM permettono di scaricare e avviare modelli IA ottimizzati da NVIDIA in forma di container, pronti all’uso, riducendo drasticamente le complessità di configurazione e integrazione.
I microservizi coprono una varietà di funzionalità: si va dai modelli linguistici di grandi dimensioni ai modelli visivo-linguistici che elaborano congiuntamente testo e immagini; sono disponibili servizi per la generazione di immagini, per il riconoscimento e la trascrizione del parlato, per applicazioni RAG (Retrieval-Augmented Generation) che combinano modelli LLM con basi di dati esterne, per l’estrazione strutturata di informazioni da documenti PDF, fino alla computer vision in tempo reale.
Tutto questo è ora eseguibile localmente su GPU della serie RTX 4000, 5000 e sulla nuova generazione RTX Blackwell PRO. Per essere più precisi e riprendendo l’annuncio di gennaio di NVIDIA, al momento sono supportate le schede GeForce RTX 50 Series, GeForce RTX 4090 e 4080 e NVIDIA RTX 6000 e 5000. Ma l’azienda promette che in futuro saranno supportate altre GPU.
I NIM sono già integrati in una serie di strumenti e ambienti largamente usati dagli sviluppatori. È possibile utilizzarli all’interno di NVIDIA AI Workbench, nell’ambiente di sviluppo JupyterLab, su piattaforme come Hugging Face e nei framework LLM-oriented come LangChain e LlamaIndex. Questa interoperabilità li rende adatti sia alla prototipazione individuale sia all’uso in flussi di lavoro professionali e aziendali.
Per facilitare l’adozione dei NIM, NVIDIA ha inoltre rilasciato i Blueprint del toolkit RTX AI. Si tratta di esempi funzionanti, rilasciati come progetti containerizzati, che mostrano come costruire applicazioni AI concrete.

I Blueprint coprono casi d’uso come chatbot RAG con interfaccia web, modelli di classificazione visiva, sistemi text-to-speech e assistenti vocali o multimodali. Sono pensati per essere facilmente clonati e adattati da sviluppatori, team IT e data scientist.
Anche dentro Visual Studio Code di Microsoft
Una delle novità più rilevanti riguarda l’integrazione dei NIM in Visual Studio Code grazie all’AI Toolkit ufficiale rilasciato da Microsoft.
Questa estensione consente di avviare un microservizio NIM direttamente all’interno dell’ambiente di sviluppo, selezionare il tipo di modello da eseguire (ad esempio un LLM o un generatore di immagini), e testarne le funzionalità tramite chiamate API locali. Gli sviluppatori possono così costruire applicazioni AI sfruttando l’interfaccia REST offerta da ciascun NIM, senza necessità di configurare un backend cloud.

Per utilizzare i NIM in Visual Studio Code, è necessario predisporre un ambiente compatibile con Windows Subsystem for Linux (WSL2).
La procedura richiede l’installazione di WSL2 e Docker Desktop, oltre a NVIDIA Container Toolkit. NVIDIA ha rilasciato uno script di installazione automatica, il NIM WSL2 Installer, che guida passo passo alla configurazione dell’ambiente. Seguendo la documentazione ufficiale, l’intero processo di installazione dovrebbe richiedere meno di un’ora.
1 Commenti