IA, partono le cause: Meta e OpenAI denunciate, “violati i diritti d’autore di centinaia di migliaia di romanzi”

Le aziende si vedono bombardate da azioni legali per l'utilizzo dell'IA in violazione del copyright. L'accusa degli autori: hanno costruito i set di dati che utilizzano per formare i loro sistemi di IA "rastrellando Internet alla ricerca di dati testuali"

Si moltiplicano gli sforzi degli autori per impedire alle aziende che si occupano di intelligenza artificiale di utilizzare le loro opere protette da copyright per formare sistemi di intelligenza artificiale, questa volta prendendo di mira le società Meta e OpenAI.

Michael Chabon e altri scrittori illustri hanno citato in giudizio Meta martedì 12 presso un tribunale federale della California, accusando l’azienda di violazione del diritto d’autore per aver raccolto quantità massicce di libri sul web, che sono stati poi utilizzati per produrre opere che violano i loro diritti d’autore. OpenAI era stata querelata l’8 settembre con una class action identica, in cui si sosteneva che le aziende “traggono vantaggi commerciali e profitti ingenti dalla loro raccolta non autorizzata e illegale” delle opere. I querelanti hanno chiesto un’ordinanza del tribunale che imponga alle aziende di distruggere i sistemi di intelligenza artificiale che sono stati formati con opere protette dal diritto d’autore.

“L’IA viola il copyright”

L’azione legale è l’ultimo tentativo di una serie di sfide giudiziarie sulla legalità del modo in cui vengono formati i modelli linguistici. OpenAI sta affrontando una proposta di class action da parte dell’autore Paul Tremblay, oltre a una causa intentata da Sarah Silverman, che fa anche il nome di Meta. Gli artisti hanno inoltre citato in giudizio i generatori di arte artificiale Stability AI, Midjourney e DeviantArt per violazione del copyright.

Come prova del fatto che i sistemi di IA sono stati alimentati con i libri degli autori, la causa indica ChatGPT che, quando richiesto, genera riassunti e analisi approfondite dei temi dei romanzi. Secondo l’accusa, ciò è “possibile solo se il modello GPT è stato formato utilizzando le opere degli autori”.

“Se a ChatGPT viene richiesto di generare uno scritto nello stile di un certo autore, genererà contenuti basati su modelli e connessioni appresi dall’analisi delle opere di quell’autore all’interno del suo set di dati di formazione”, si legge nella querela, che riprende in gran parte quella presentata da Tremblay.

E poiché i modelli linguistici di grandi dimensioni non possono funzionare senza le informazioni estratte dal materiale protetto da copyright, le risposte che ChatGPT produce sono “esse stesse opere derivate che violano il diritto d’autore”, si legge nella causa contro Meta.

Una raccolta di oltre 7000 romanzi

Gli autori sostengono che OpenAI e Meta hanno costruito i set di dati che utilizzano per formare i loro sistemi di intelligenza artificiale “rastrellando Internet alla ricerca di dati testuali”. Nel giugno 2018, OpenAI ha rivelato di aver alimentato GPT-1 – la prima iterazione del suo modello linguistico di grandi dimensioni – con una raccolta di oltre 7.000 romanzi su BookCorpus, secondo la denuncia.

“BookCorpus è un dataset controverso, assemblato nel 2015 da un team di ricercatori di IA finanziati da Google e Samsung al solo scopo di formare modelli linguistici come GPT copiando opere scritte da un sito web chiamato Smashwords, che ospita romanzi autopubblicati, mettendoli a disposizione dei lettori a costo zero”, si legge nella querela. “Nonostante questi romanzi siano in gran parte coperti da copyright, sono stati inseriti nel set di dati BookCorpus senza consenso, credito o compenso per gli autori”.

Lo sciopero degli sceneggiatori in America

Sceneggiatori in sciopero contro le IA

Secondo la suddetta querela, anche le versioni successive dei modelli linguistici di OpenAI sono state formate su libri ottenuti in modo illecito. In un documento del 2020 che introduceva il GPT-3, l’azienda ha rivelato che il set di dati per l’addestramento proveniva da “due corpora di libri pubblicati su Internet”, indicati come “Books1” e “Book2”. Sebbene OpenAI non abbia mai rivelato i libri contenuti nel dataset, gli autori affermano che “Books1” si basa sull’archivio del Progetto Gutenberg, una raccolta online di libri i cui diritti d’autore sono scaduti, che ha acquisito molta popolarità tra le aziende di IA. Sostengono che “Books2” derivi da siti di biblioteche ombra, tra cui Library Gensis, Z-Library e Bibliotick, perché “sono le fonti di libri che possono essere usati per la formazione più simili per natura e dimensioni alla descrizione di OpenAI” del set di dati.

IA, le fonti di GPT-4

OpenAI non divulga più le informazioni sulle fonti del suo set di dati, “sia per il panorama competitivo che per le implicazioni sulla sicurezza di modelli su larga scala come il GPT-4”, ha dichiarato l’anno scorso.

Meta non divulga nemmeno l’origine dei libri contenuti nel suo set di dati utilizzato per addestrare LLaMA, secondo quanto riportato nella querela. Pur affermando che le opere provengono dalla “sezione Books3 di The Pile”, un dataset disponibile pubblicamente per modelli linguistici di grandi dimensioni, non ne descrive ulteriormente il contenuto.

“Ma queste informazioni sono disponibili altrove”, si legge nella suddetta querela, che sostiene che “Books 3” è composto da libri ottenuti da Bibliotik. “La persona che ha assemblato il dataset ‘Books3’ ha confermato in dichiarazioni pubbliche che esso rappresenta ‘tutta Bibliotik’ e contiene 196.640 libri”.

Un’azione collettiva

L’azione collettiva, che mira a rappresentare una classe di autori statunitensi le cui opere sono state utilizzate per formare sistemi di intelligenza artificiale, è stata intentata da Chabon – noto per I misteri di Pittsburgh, Wonder Boys e Le incredibili avventure di Kavalier & Clay – David Henry Hwang e Matthew Klam, oltre che da altri scrittori di libri e sceneggiature. I due autori hanno presentato ricorso per violazione diretta del diritto d’autore, violazione vicaria del diritto d’autore, violazione del Digital Millennium Copyright Act, arricchimento senza causa e negligenza.

I tribunali dovranno confrontarsi con due casi della Corte Suprema che, secondo gli esperti di diritto, probabilmente determineranno l’esito della controversia. Da un lato, c’è un precedente che autorizza la copia di opere per generare risposte testuali che non violino il diritto d’autore, quando nel 2005 la Authors Guild fece causa a Google per aver digitalizzato milioni di libri per creare una funzione di ricerca.

Un giudice federale ha respinto le accuse di violazione del copyright, ritenendo che l’utilizzo di opere protette dal diritto d’autore da parte dell’azienda corrispondesse a un uso corretto. Il punto centrale della sentenza è che Google ha permesso agli utenti di visualizzare solo frammenti di testo senza fornire il libro completo.

Guardando alla Corte Suprema

D’altro canto, gli autori possono fare riferimento alla recente decisione della Corte Suprema che ha respinto la difesa basata sull’uso corretto nella causa Andy Warhol Foundation for the Visual Arts contro Goldsmith. I giudici hanno sottolineato che la potenziale sovrapposizione dello sfruttamento commerciale è una considerazione chiave nell’analisi, stabilendo che l’uso corretto è probabilmente negato quando l’opera originale e il derivato condividono “lo stesso scopo o uno scopo altamente simile” e l’uso secondario è commerciale.

“Tra i due casi della Corte Suprema, sembra che i tribunali si concentreranno sulla natura dell’uso”, afferma Ed Klaris, avvocato specializzato in proprietà intellettuale e professore alla Columbia Law School.

Sceneggiature generate da ChatGPT

In particolare, gli utenti possono chiedere a ChatGPT di generare sceneggiature nello stile di un libro o di un autore specifico. Quando è stato chiesto di produrre una sceneggiatura nello stile di The Dance and The Railroad, ChatGPT ha prodotto un copione scritto nello stile del querelante Hwang, generando uno script che coinvolge un operaio cinese che lavora sulla Central Pacific Railroad e che “crede nel potere dell’arte per mantenere vivo il proprio spirito””, si legge nella querela.

Se l’Ufficio per il diritto d’autore autorizzerà la copia delle opere generate dall’IA, e se le aziende si dichiareranno proprietarie in base alla dottrina del lavoro su commissione, gli studios potrebbero opzionare un libro e far scrivere all’IA la sceneggiatura. Questo potrebbe compromettere le prospettive di mercato degli autori. Stephen Chbosky, autore di The Perks of Being a Wallflower, Emma Donoghue, autrice di Room, e Gillian Flynn, autrice di Gone Girl, hanno tutti adattato le sceneggiature dei loro romanzi.

Klaris prevede che i tribunali “si pronunceranno a favore dei creatori” se riusciranno ad esaminare la questione del fair use. Klaris sottolinea che gli autori e gli artisti sostengono che le aziende di IA stanno attivamente danneggiando i loro interessi economici creando opere concorrenti sulla base del loro materiale. Questo costringerà le aziende di IA a creare un quadro di riferimento per le licenze.

OpenAI non ha risposto a una richiesta di commento. Meta ha rifiutato di commentare.