La società francese Mistral, impegnata nello sviluppo di LLM, ha presentato un sistema OCR capace, attraverso un’apposita API, di estrapolare da un file PDF tutto il testo e convertirlo in formato markdown.

Questa possibilità, oltre a poter esser utile fine a sé stessa per ricavare il testo di un documento scansionato, sarà utilizzata principalmente in sistemi RAG (Retrieval-Augmented Generation), quelli che permettono agli utenti di caricare documenti che un chatbot IA utilizza come fonte oltre alla sua pregressa conoscenza.

OCR negli LLM, perché è fondamentale?

Spesso gli utenti caricano nei vari chatbot dei PDF scansionati, che per i LLM sarebbero ingestibili senza una tecnologia OCR, fondamentale per riuscire ad estrapolare dall’immagine il testo presente.

Ma anche in un PDF realizzato a computer, l’utilizzo di un sistema di riconoscimento dei caratteri riesce a catturare un eventuale testo presente in immagini, che possono essere schemi o mappe concettuali.

Insomma, i vari LLM lavorano meglio con del testo grezzo piuttosto che con quello impaginato e strutturato che si potrebbe trovare in un PDF.

Nel caso di Mistral, l’output nel linguaggio di formattazione markdown permette di avere del semplice testo in cui comunque, mediante gli appositi tag, possono venire distinti titoli, link ipertestuali e altri elementi del documento, come immagini o tabelle.

Ciò che lo contraddistingue dall’OCR di altri LLM è proprio la sua multimodalità che permette di individuare, estrapolare e inserire nell’output anche contenuti non testuali come foto, tabelle, formule matematiche (in linguaggio LaTex) o grafici fornendo quindi un input più completo.

Input in PDF
Output in Markdown

Lo sviluppo di OCR sempre più avanzati è una risorsa fondamentale nell’epoca dei LLM per permettere alle aziende di sfruttarli con i dati dei propri archivi, che nel 90% dei casi sono proprio in formato PDF.

Come si fa ad utilizzarlo?

Gli utenti di Le Chat, il chatbot di Mistral, possono già sfruttare questo sistema, che viene richiamato automaticamente in background quando si carica un PDF.

Il chatbot di Mistral sale di livello: beta gratuita con ricerca web, Canvas, analisi PDF e generazione immagini

Vai all'approfondimento

Gli sviluppatori invece possono accedere alle API mediante La Plateforme al costo di 1 dollaro ogni 1000 pagine (o 2000 pagine, in caso di batch inference). La velocità di elaborazione è di circa 2000 pagine al minuto su singolo nodo.

Per le aziende che trattano dati sensibili sarà presto possibile utilizzare questo OCR in locale, nei propri server.

Quanto è realmente performante?

Secondo i dati forniti da Mistral stessa, il suo sistema di OCR è complessivamente più performante rispetto a quelli concorrenti realizzati da Google, Microsoft e OpenAI.

La differenza nelle prestazioni si nota soprattutto nel riconoscimento di tabelle e formule matematiche, dove Mistral raggiunge rispettivamente il 96% e 94% di accuratezza mentre GPT 4o si ferma al 91% e 87% e Gemini 1.5 Flash al 90% e 89%.

Fonte: Mistral

Tuttavia, l’azienda Reducto, specializzata proprio nell’OCR dei dati mediante LLM, ha prontamente svolto dei confronti con Gemini 2.0 Flash i cui risultati sono di gran lunga diversi rispetto a quelli annunciati da Mistral.

Dopo aver messo alla prova i due modelli con mille PDF di diverso tipo, è risultato che Mistral OCR ha un grado di accuratezza solo del 45.3% mentre l'OCR di Google arriva all’80.1%.

Sono stati condivisi un po’ di esempi in cui si nota che spesso Mistral tende a perdere dei pezzi o allucinare delle scritte che in realtà non sono presenti nel PDF di origine. Più raramente invece ci sono errori di trascrizione.

Fonte: Reducto

Un’ipotesi che giustificherebbe la sostanziale differenza tra i risultati effettivi e quelli dichiarati dall’azienda è che il set di dati con cui Mistral ha svolto i test (che non è pubblico) abbia una struttura estremamente simile a quello con cui il modello stesso è stato addestrato e dunque su documenti diversi l’accuratezza diminuisce per forza.

Tornando ai dati condivisi da Mistral, il sistema OCR funziona in molte lingue diverse con percentuali di accuratezza simili tra loro, siamo tra il 97% e il 99.55%, che in ogni caso sono sempre maggiori di quelle dei concorrenti.
Anche in questo caso si tratta di ciò che dichiara l'azienda basandosi sui suoi test interni.

Fonte: Reducto