Le IA generative non sono nate con ChatGPT, ma è indubbio che da fine novembre 2022, con il debutto pubblico del modello di OpenAI, il dibattito intorno ad esse si sia acceso in modo inedito, perché di fatto lo erano anche le tecnologie. Se da un lato queste hanno suscitato entusiasmo per le loro potenzialità – dalla scrittura automatica alla produzione di immagini, dalla programmazione assistita fino alla composizione musicale – dall’altro hanno immediatamente sollevato due interrogativi profondi. Il primo riguarda il mondo del lavoro: in quali settori l’IA avrebbe potuto soppiantare l’intervento umano, con quali tempi e con quali conseguenze occupazionali? Il secondo ha investito la sfera della proprietà intellettuale: da dove proviene il patrimonio di conoscenze su cui questi modelli sono stati addestrati? E soprattutto: con quale legittimità sono stati utilizzati, in modo massivo e sistematico, contenuti spesso protetti da diritto d’autore?

Questi due temi, che fondano i principali dubbi sulle IA, sono tuttora al centro di un confronto aperto e ancora privo di risposte condivise. Se sul piano occupazionale il dibattito si è un po’ attenuato, ma si concentra ancora sull’impatto differenziato nei vari settori, tra rischi di sostituzione e scenari di coesistenza, sul versante del diritto d’autore la questione appare più complessa e viva.

Il nodo riguarda l’utilizzo, da parte delle aziende tecnologiche, di grandi quantità di contenuti creativi – testi, immagini, musica, codice – protetti da copyright e prelevati online per addestrare i modelli di Intelligenza Artificiale generativa. Un uso spesso avvenuto senza consenso esplicito, senza compensi, e, come molti autori denunciano, senza nemmeno la possibilità di opporsi preventivamente.

Secondo altri, però, l’addestramento dei modelli generativi rientra nel naturale processo di apprendimento e rielaborazione che caratterizza da sempre la produzione artistica. Uno dei pareri più diffusi è che le IA, in queste “letture delle arti altrui”, non copiano né conservano le opere originali ma estraggono schemi e regole da cui generano nuovi contenuti, in modo analogo a quanto fa un essere umano esposto a libri, immagini o musica. In assenza di una riproduzione diretta e identificabile, per molti non si configura una violazione del diritto d’autore.

SIAE dalla parte degli autori: la sua campagna #CopyOrRight

All’interno di questo ribollire di opinioni è nata recentemente la campagna #CopyOrRight, promossa dalla SIAE. L’iniziativa, lanciata qualche giorno fa in occasione della Giornata Mondiale del Libro, denuncia la mancanza di tutele reali per gli autori nell’ecosistema dell’IA generativa.

Al centro della campagna c’è la richiesta di un intervento legislativo che garantisca maggiore trasparenza sui dati utilizzati per addestrare i modelli e riconosca agli autori il diritto di negare l’uso delle proprie opere da parte delle IA.

Per la SIAE, anche il recente fenomeno della “ghiblizzazione” delle immagini – a seguito delle disponibilità del nuovo modello di generazione in ChatGPT che consente di creare anche disegni molto simili nello stile a quello dello Studio Ghibli – ha reso evidente quanto sia labile oggi il confine tra ispirazione e copia. Secondo la SIAE, senza regole chiare il rischio è che l’IA venga equiparata alla creatività umana, minando alla base il valore dell’ingegno individuale.

L’Italia inizia a prendere le misure sul copyright nelle IA

Oltre a sensibilizzare l’opinione pubblica, con la sua campagna la SIAE intende incidere anche nello sviluppo legislativo italiano in materia, a cominciare dal recente disegno di legge n° 1146 del 2024 intitolato "Disposizioni e delega al Governo in materia di intelligenza artificiale", sul quale ha già influito con una discussione avvenuta a settembre dello scorso anno. Il ddl è comunque già stato approvato dal Senato il 21 marzo scorso, e ora è in discussione alla Camera.

Al suo interno contiene anche principi e orientamenti in materia di diritti d’autore e IA. In particolare, l’art. 23 chiarisce che sono protette dal diritto d’autore anche le opere create con l’ausilio dell’IA, a condizione che esse siano “il risultato del lavoro dell’intelligenza dell’autore”, escludendo quindi le opere generate interamente da sistemi autonomi di IA, senza un apporto creativo umano riconoscibile; e i contenuti generati automaticamente da modelli generativi se privi di un’elaborazione significativa da parte dell’essere umano.

Inoltre, il ddl legittima, senza comunque riferirsi direttamente al diritto d’autore, il "text and data mining" per l’addestramento delle IA (il TDM, di cui parleremo in seguito) ma solo se si ha accesso legittimo alle opere e ai materiali collezionati per questo scopo.

Come detto, si tratta di principi e non di articoli immediatamente vincolanti, dato che il passaggio a una legge limitativa dovrà necessariamente interessare altri dispositivi.

Il ddl italiano si collega infatti all’AI Act dell’Unione Europea – che è stata in assoluto la prima legge al mondo a regolamentare in parte le moderne IA – la quale fa a sua volta anche riferimento alla Direttiva (UE) 2019/790 sul diritto d'autore e sui diritti connessi nel mercato unico digitale, che ha portato a modificare la vecchia legge del diritto d’autore italiana del 1941.

L’AI Act europeo entra nel vivo: sono effettivi i primi divieti nell’utilizzo delle IA

Vai all'approfondimento

Come si vede, è un gioco di incastri legislativi riguardante un panorama tecnologico assolutamente nuovo, così come lo è stato quello di tutti i contenuti digitali che hanno richiesto inedite regolamentazioni mondiali nate anche dalle convenzioni Internet dei primi anni 2000 e precedenti. È grazie a quelle convenzioni se oggi possiamo parlare di protezione contro l’elusione dei DRM, o di estensione dei diritti per fonogrammi e interpreti nel contesto digitale. Cose che, indipendentemente dal fatto che possano essere criticate o meno, oggi diamo per scontate.

Nell’ambito dell’Intelligenza Artificiale, proprio l’AI Act europeo, il 2 agosto 2025, potrebbe diventare il primo grimaldello legislativo per normare il copyright sui contenuti IA e i dati di addestramento, e che potrebbe portare la SIAE a occupare un ruolo del tutto nuovo tra quelli di gestione e tutela del diritto d’autore già posseduti dall’ente.

Vediamo cosa può cambiare; ma prima bisogna cercare di mettere ordine nelle attuali leggi internazionali che, di fatto, non sono ancora in grado di normare completamente alcune caratteristiche delle IA generative, come appunto i diritti d’autore legati ai dati di addestramento. Quindi è necessario anche capire perché le IA generative hanno bisogno di grandi masse di dati da cui apprendere per poter funzionare.

Perché le IA sono affamate di dati?

Per il proprio addestramento, le IA generative necessitano di enormi quantità di dati per diverse ragioni fondamentali. In primo luogo, questi sistemi devono acquisire una comprensione statistica della complessità e variabilità del linguaggio umano, delle immagini o di altri contenuti che devono riprodurre. Senza un'esposizione estesa a milioni o miliardi di esempi, i modelli non potrebbero identificare i pattern sottili e le correlazioni che caratterizzano un testo coerente o un'immagine realistica.

Anche perché, a differenza degli esseri umani che possono generalizzare da poche esperienze, questi modelli non hanno coscienza né comprensione: costruiscono rappresentazioni statistiche del mondo basate sulla frequenza e la “ripetuta vicinanza” di elementi nei dati. Più ampio e vario è il dataset, maggiore è la capacità del modello di "prevedere" parole, immagini o suoni plausibili in nuovi contesti. Inoltre, i dati devono coprire una vasta gamma di situazioni linguistiche e culturali per ridurre i bias e migliorare la generalizzazione. Per questo l’addestramento di modelli come i GPT di OpenAI o gli Imagen di Google, per citarne solo due, richiedono miliardi di parole o milioni di immagini: solo così possono raggiungere una competenza sufficiente da generare output coerenti, informativi e adattabili. In sostanza, la quantità di dati è la base per simulare una forma rudimentale di conoscenza.

I modelli IA “giganti” hanno già esaurito il loro potenziale? Verso una nuova era degli LLM

Vai all'approfondimento

È praticamente certo che la maggior parte dei dataset di addestramento delle IA più note include contenuti non esplicitamente licenziati, ma reperiti online tramite scraping. Molto spesso, però, le società non svelano l’origine dei dati, ed è quindi difficile capire da quali mari abbiano attinto, e soprattutto quanti e quali pesci abbiano pescato.

Si può dire che queste attività di raccolta dati su larga scala siano iniziate a partire dal 2015-2016, con un'accelerazione significativa dal 2018 in poi, quando le architetture transformer hanno mostrato capacità sorprendenti. Uno dei paper più importanti sul tema, “Attention Is All You Need" di Google, è infatti del 2017. Nel 2018 Google ha poi rilasciato pubblicamente su GitHub il modello BERT basato su questa architettura (nella sua forma bidirezionale, e non autoregressiva, come quella dei GPT di OpenAI).

Transformer è un’architettura di rete neurale introdotta nel 2017 (formalmente dal paper “Attention Is All You Need") ed è alla base di tutti i principali modelli di IA. In generale, usa meccanismi di attenzione per cogliere le relazioni tra le parole di un testo.
Le tecniche bidirezionali, come in BERT, analizzano il contesto prima e dopo ogni parola, e quindi sono ideali soprattutto per comprendere, e non per generare testo.
Le tecniche autoregressive, come in GPT, generano invece una parola alla volta basandosi su quelle precedenti, dunque sono perfette per scrivere testi coerenti.

I primi modelli erano più aperti nella dichiarazione dei dataset usati. Per esempio, BERT si è servito anche di BookCorpus, un set realizzato da alcuni ricercatori dell’Università di Toronto e del MIT, composto da 7.185 libri unici (11.038 se si contano i doppioni) disponibili gratuitamente sulla piattaforma Smashwords al momento della raccolta, e che avevano una lunghezza superiore alle 20.000 parole. Nonostante la gratuità, alcuni volumi contenevano però anche note sul copyright, del tipo “questo libro è una proprietà protetta da copyright dell'autore e non può essere ridistribuito per altri per scopi commerciali o non commerciali”. Nel dubbio che il dataset violasse le leggi sul diritto d’autore, BookCorpus venne quindi ritirato nel 2021.

Nel 2020, per GPT-3 OpenAI ha dichiarato l’utilizzo, tra gli altri, di Common Crawl, un'enorme collezione di snapshot del web aggiornata mensilmente, e anche Books1 e Books2, dataset mai specificati, ma che si presume includano libri protetti da copyright.

Sempre restando dalla parti di OpenAI, Sora, il generatore di video, ha molto probabilmente usato anche contenuti di YouTube e dei social per addestrarsi. L’ex CTO della società, Mira Murati, in una storica intervista al Wall Street Journal disse di non essere sicura che il modello fosse stato addestrato anche con filmati di YouTube, Facebook e Instagram. Ma era a capo della tecnologia di OpenAI, ed è improbabile che non lo sapesse. Disse però che si trattava di “dati disponibili pubblicamente o concessi in licenza”. Ovviamente, il concetto di “dati disponibili pubblicamente” è troppo vasto e di per sé non esclude certamente i contenuti protetti da copyright.

Le società IA hanno trovato un campo giuridico libero, e hanno fatto incetta di dati

Le startup IA e le Big Tech si sono mosse con estrema libertà nell’ottenimento e nella creazione di questi corpus di dati per due motivi principali e reciproci: il primo è che la legge che li regolamentava non era (e non è) omnicomprensiva, e soprattutto perché quasi tutte si sono mosse inizialmente nell’ambito della ricerca scientifica, settore in cui le normative vigenti autorizzavano lo scraping e il data mining al fine di costruire i dataset con cui poi avrebbero addestrato i modelli. E qui entrano in campo anche concetti come “fair use” e “text and data mining”, cioè il TDM anticipato in precedenza.

Le legislazioni nazionali hanno approcci eterogenei riguardo all’utilizzo di contenuti protetti per l’addestramento di modelli IA. Alcuni ordinamenti, come il Giappone e l’Unione Europea, hanno introdotto eccezioni specifiche per il text and data mining (TDM), mentre altri, come gli USA, si affidano a dottrine generali come il fair use. Per semplicità ci limiteremo a guardare USA e UE, che comunque sono le due aree legislative che, per ora, adottano i sistemi di regolamentazione più diffusi.

Stati Uniti e fair use, una soluzione che però deve servirsi dei tribunali

Negli Stati Uniti non esiste ancora una norma ad hoc che autorizzi o vieti esplicitamente l’uso di opere protette per addestrare IA. La questione ricade nell’alveo del fair use, la dottrina dell’uso corretto prevista dal Copyright Act (promulgato nel 1976) e applicata caso per caso​.

Dunque, in base al fair use, l’uso non autorizzato di materiale protetto può essere legittimo se soddisfa determinati criteri; per esempio, scopo e carattere dell’uso, natura dell’opera, quantità utilizzata, effetto sul mercato, ecc. In generale, gli sviluppatori di IA sostengono che la fase di ingestione dei dati durante l’addestramento è un uso trasformativo e meramente funzionale, paragonabile alla copia temporanea per motivi di analisi​.

In tal senso, a fare storia giuridica è stata soprattutto la causa legale tra Google e Authors Guild, la quale aveva accusato Google di aver violato il diritto d'autore digitalizzando milioni di libri protetti senza autorizzazione, e rendendone alcune parti consultabili online tramite il progetto Google Books, anche solo in forma di estratti brevi, i cosiddetti “snippet”.

Nel 2015 i giudici di appello stabilirono che Google Books costituiva fair use ai sensi del Copyright Act, perché l’uso dei dati era di tipo trasformativo e non sostituiva libri, ma permetteva agli utenti di cercare parole chiave nel testo e leggerne appunto alcuni snippet. Inoltre, l’uso non danneggiava il mercato dei libri, ma al contrario lo poteva potenzialmente favorire rendendo più visibili testi che altrimenti non sarebbero mai stati scoperti.

Ma per quanto riguarda le nuove tecnologie, gli USA si stanno ancora interrogando sul tema del diritto d’autore e le opere create con l’IA e i dati di addestramento protetti da copyright. Uno dei report più recenti è quello dell’U.S. Copyright Office, l'Ufficio che gestisce il sistema nazionale del diritto d'autore. Per il momento l’ente ha concluso (in modo non vincolante) che i dati generati unicamente da IA non possono ricevere protezione, e l’uso di opere protette per addestrare modelli IA solleva questioni aperte circa la liceità dell’uso in assenza di licenza e l’eventuale applicabilità del fair use, che è da valutarsi caso per caso. Inoltre, l’Ufficio ha evidenziato che l’uso di contenuti protetti per addestrare IA può avere conseguenze negative sulla sostenibilità economica della creazione umana, minacciando di ridurre la quota di royalties a disposizione dei creatori in carne e ossa.

Poiché è l’applicabilità caso per caso del fair use a stabilire la liceità delle IA nell’uso dei dati, va da sé che il terreno di scontro siano i tribunali.

Sono diverse le cause ancora in corso e le sentenze già emesse. Tra queste quella di Thomson Reuters contro ROSS, che ha visto capitolare quest’ultima. La startup IA aveva raccolto migliaia di estratti testuali protetti per addestrare un sistema di ricerca legale. Il giudice ha ritenuto che quell’uso avesse natura commerciale e finalità concorrente all’opera originaria (i riassunti di sentenze di Thomson Reuters) e che precludesse al legittimo titolare la possibilità di concedere in licenza quel materiale per addestrare IA.

Molto più recente e di richiamo è la causa tra il New York Times e OpenAI/Microsoft. Il giornale ha accusato le due società di aver utilizzato milioni dei suoi articoli per addestrare i modelli IA (tra cui GPT-3, GPT-3.5 e GPT-4) senza autorizzazione né compenso. Attività che ha permesso a OpeAI di restituire, su richiesta, contenuti quasi identici agli articoli originali, consentendo agli utenti di aggirare i paywall e riducendo così il traffico verso il sito del quotidiano.

OpenAI e Microsoft hanno chiesto l’archiviazione della causa, sostenendo che l’uso dei contenuti rientrerebbe nel principio del fair use, ma il giudice ha recentemente ritenuto plausibili le accuse principali, permettendo che la causa prosegua almeno per quanto riguarda la violazione del copyright e la responsabilità per aver indotto gli utenti a infrangere il diritto d’autore.

Sono anche più numerose le cause, tuttora in corso, che vedono scrittori, artisti e musicisti accusare le aziende di IA dell’uso dei loro materiali protetti da copyright per l’addestramento dei modelli. Tra queste anche quella delle major musicali Universal, Sony, Warner contro Anthropic per impedirle di usare testi di canzoni protetti nei suoi training, dato che i testi sono spesso online e le attività di scraping sono in grado di “leggerli”.

L’Europa è più pronta a proteggere i dati di addestramento. E lo sarà di più con l’AI Act

In Europa la situazione normativa è un po’ più complessa rispetto all’attuale fair use statunitense, e ha dispositivi che vengono ancora prima dell’AI Act recentemente in vigore, ma che comunque sono stati inglobati dalla nuova legge.

La Direttiva (UE) 2019/790 sul diritto d’autore nel Mercato Unico Digitale è una di queste: ha introdotto due eccezioni specifiche per il “text and data mining” (TDM), recepite poi nelle leggi nazionali degli Stati membri.

Come si può facilmente capire, il TDM è quel processo di analisi automatizzato di dati digitali finalizzato all'estrazione di informazioni spesso da siti in Internet.

Nel contesto del diritto europeo, la direttiva del 2019 stabilisce che il TDM può essere usato per la ricerca, l’innovazione e lo sviluppo tecnologico ai fini scientifici, ed è riservato a enti di ricerca e istituti di tutela del patrimonio culturale, con una eccezione obbligatoria; e poi c’è il TDM a fini generali, aperto anche a soggetti commerciali, ma che dà facoltà ai titolari di escludere le proprie opere dall’eccezione, per esempio apponendo una riserva tramite strumenti come il file robots.txt. In sostanza, se il titolare non esprime riserva, l’uso per data mining è consentito; se invece ha riservato i diritti, l’uso senza licenza resta vietato.

Di base l’AI Act adotta un approccio normativo fondato sulla valutazione del rischio, regolando l’uso dei sistemi di Intelligenza Artificiale in funzione del loro impatto sui diritti fondamentali, sulla sicurezza e sull’ambiente. Ma al suo interno sono contenuti anche obblighi, riguardanti i dati, specifici per i fornitori di modelli di Intelligenza Artificiale per finalità generali: i cosiddetti GPAI, quindi società come OpenAI, Anthropic, ma anche Google e Microsoft, per citarne solo alcuni.

Come tante altre leggi europee, anche l’AI Act ha un’attivazione graduale. È vero che è entrato in vigore il 1° agosto 2024, ma solo il 2 febbraio 2025 sono diventati vincolanti i divieti sulle pratiche IA inaccettabili (come il social scoring governativo) e le sue disposizioni generali.

La prossima tappa è quella del 2 agosto 2025, quando entreranno in vigore anche gli obblighi per i GPAI, che sono questi:

  • Documentazione tecnica: i GPAI devono mantenere e fornire, su richiesta, una documentazione tecnica dettagliata sui modelli, inclusi i dati utilizzati per l'addestramento e le metodologie impiegate.
    
  • Politica sul rispetto del diritto d'autore: sono obbligati a implementare misure per garantire il rispetto della normativa europea sul diritto d'autore, in particolare per quanto riguarda l'utilizzo di dati protetti durante l'addestramento dei modelli.
    
  • Sintesi dei dati di addestramento: devono rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei contenuti utilizzati per l'addestramento del modello, comprese le principali fonti di dati.
    
  • Cooperazione con fornitori downstream: fornire informazioni necessarie ai fornitori di sistemi IA che integrano i modelli GPAI, per consentire loro di adempiere ai propri obblighi normativi.
    
  • Valutazione e mitigazione dei rischi sistemici (per modelli con rischio sistemico, che sono quelli considerati molto grandi e potenti): devono condurre valutazioni dei rischi associati ai modelli e implementare misure per mitigare tali rischi, inclusi test di sicurezza e monitoraggio post-mercato.

Restano attive delle eccezioni per i modelli open source con parametri pubblici (inclusi pesi e architettura) a meno che non siano considerati a rischio sistemico​, e le eccezioni TDM per l’estrazione dei dati ai fini della ricerca scientifica da parte di enti ben determinati.

Sostanzialmente, dal 2 agosto di quest’anno, le aziende IA devono permettere alle istituzioni europee di poter guardare dentro i dati dei modelli IA che hanno prodotto e che produrranno (l'AI Office europeo è comunque alla terza bozza dell'implementazione).

E la SIAE potrebbe inserirsi in questa breccia occupando un ruolo finora inedito, cioè quello di diventare un gestore di tipo Extended Collective Licensing (ECL).

Ecco quale potrebbe essere il nuovo ruolo di SIAE nell’epoca dell’IA

L’Extended Collective Licensing (ECL) è un meccanismo giuridico che consente a un’organizzazione di gestione collettiva, come la SIAE in Italia, di stipulare licenze che vincolano anche i titolari dei diritti non iscritti alla stessa società, a condizione che questi abbiano però l’opportunità di fare opt-out, cioè di escludersi dal sistema.

L’ECL nasce nei paesi nordici, in particolare in Danimarca, Norvegia e Finlandia, come strumento per semplificare l'accesso a opere protette nei casi in cui ottenere licenze individuali sarebbe troppo complesso o costoso, per esempio la digitalizzazione di archivi, la trasmissione online, o anche l’addestramento di IA.

Infatti, nel caso dell’Intelligenza Artificiale, l’ECL potrebbe essere impiegato per autorizzare l’uso di grandi insiemi di opere protette nei dataset di addestramento, evitando agli sviluppatori di IA di negoziare milioni di singole licenze. In cambio, le società IA verserebbero compensi forfettari che le collecting, come la SIAE, redistribuirebbero agli aventi diritto.

In Italia però non esiste ancora una normativa esplicita sull’ECL. E anche se la SIAE ha già mandati estesi di rappresentanza per diversi repertori (musica, audiovisivo, letteratura) e gestisce accordi collettivi, può farlo solo per i propri iscritti o mandanti.

Per introdurre un ECL in senso pieno, servirebbe dunque una modifica legislativa che autorizzi una collecting, come SIAE ma anche eventualmente altri organismi autorizzati, a stipulare accordi validi anche per non iscritti, purché ci sia una procedura di opt-out chiara.

Un panorama ancora poco chiaro, interpretato da osservatori diversi

In questo enorme scenario di dati di addestramento, copyright sugli stessi e uso dei servizi IA, le opinioni si polarizzano. Da un lato, chi sostiene l’attività di scraping su larga scala, come le aziende tecnologiche e molti sostenitori dell’innovazione, ritiene che l’estrazione dei dati rientri in una naturale evoluzione del processo creativo umano. Secondo questa visione, l’Intelligenza Artificiale non fa che replicare su scala industriale un comportamento millenario: osservare, assimilare, reinterpretare. Come gli artisti hanno sempre tratto ispirazione dalle opere dei loro predecessori, così l’IA analizza miliardi di esempi per sviluppare nuove forme di espressione. La differenza non starebbe nella natura del processo, ma soltanto nella velocità e nell’ampiezza del fenomeno, resa possibile dalla tecnologia.

Dall’altro lato, i critici dello scraping, e delle moderne IA in generale, ritengono che questo parallelo sia fuorviante. Nella storia, il processo creativo umano è stato lento, selettivo e profondamente individuale: pochi geni, in periodi storici circoscritti, hanno assimilato il patrimonio culturale precedente per produrre innovazione artistica. L’IA, invece, compie questo processo in modo automatico, massivo e indiscriminato, producendo opere che, pur sembrando originali, sono il risultato della rielaborazione di contenuti protetti, senza reale comprensione o creatività cosciente. Per questi critici, l’uso massivo di dati protetti da copyright altera radicalmente il concetto stesso di ispirazione, trasformandola in una forma di sfruttamento senza precedenti, contro cui è necessario stabilire nuovi strumenti di tutela.

Trovare un punto di equilibrio tra innovazione tecnologica e tutela della creatività umana sarà il nodo cruciale dei prossimi anni.