La denuncia degli autori contro OpenAI: “Continue violazioni del diritto d’autore, serve regolamentare”

"I sistemi di IA generativa sono visti come una minaccia esistenziale per la continuità del lavoro creativo". Gli scrittori Paul Tremblay e Mona Awad portano avanti la causa contro la compagnia di Sam Altman

Un’altra causa contro OpenAI. La compagnia di Sam Altman è ora di nuovo sotto i riflettori per la sua raccolta non autorizzata di informazioni sul web: un lavoro utile per formare il suo chatbot di intelligenza artificiale. A citare l’azienda questa volta sono gli autori, che affermano che ChatGPT viola i diritti d’autore dei loro romanzi.

La class action, intentata mercoledì 28 giugno presso la corte federale di San Francisco, sostiene che OpenAi “ha fatto affidamento sulla raccolta di quantità massicce” di opere protette da copyright. E lo ha fatto “senza consenso, senza riconoscimento e senza compenso”.

La richiesta è che il tribunale stabilisca che l’azienda ha violato le opere degli autori quando ha scaricato illegalmente copie di romanzi per formare il suo sistema di IA, e che le risposte di ChatGpt costituiscono quindi una violazione. In quest’ultimo periodo, le aziende che si occupano di intelligenza artificiale generativa sono bombardate da cause legali sul materiale utilizzato per formare i loro sistemi. E i tribunali stanno cercando di capire se questa pratica possa essere considerata un uso corretto o meno.

Gli autori contro OpenAI

OpenAI sta affrontando un ampio numero di class action. L’accusa è che i dati che la sua tecnologia analizza per generare il proprio codice sono da considerarsi una violazione del diritto d’autore. Un’accusa che si aggiunge alla causa intentata per la riproduzione automatica di dati personali di centinaia di milioni di persone. Come prova dell’illecito, la causa presentata dagli autori indica che ChatGpt genera riassunti dei loro romanzi quando richiesto. Sostengono che ciò è “possibile solo se ChatGpt è stato formato sulle opere protette da copyright dei querelanti”.

Poiché il sistema di intelligenza artificiale non può funzionare senza le informazioni estratte dal materiale, i software noti come large language model (Llm), che alimentano ChatGPT, “sono essi stessi opere derivate che violano il diritto d’autore, realizzate senza l’autorizzazione dei querelanti e in violazione dei loro diritti esclusivi ai sensi della legge sul copyright”, si legge nella causa. Un’opera derivata è un lavoro basato su un’opera preesistente protetta da copyright. Gli autori contestano il fatto che OpenAI abbia illegalmente scaricato centinaia di migliaia di libri per formare il suo sistema di intelligenza artificiale.

Nel giugno 2018, l’azienda ha rivelato di aver alimentato Gpt-1 (la prima iterazione del suo Llm) con una raccolta di oltre 7.000 romanzi su BookCorpus. Un archivio assemblato da un team di ricercatori di IA. “Hanno rubato i libri da un sito web chiamato Smashwords.com che ospita romanzi inediti disponibili per i lettori a costo zero”, si legge nella denuncia. “Questi romanzi, tuttavia, sono in gran parte coperti da copyright. Sono stati copiati nel dataset BookCorpus senza consenso, riconoscimento o compenso per gli autori”.

Le biblioteche ombra

Secondo la denuncia, le versioni successive dei modelli linguistici di OpenAI sono state formate su quantità maggiori di opere protette da copyright. In un documento del 2020 che presentava il Gpt-3, l’azienda ha rivelato che il 15% del suo set di dati per “l’allenamento” proveniva da “due raccolte di libri disponibili su Internet”, chiamati semplicemente “Books1” e “Books2”. Pur non avendo mai rivelato quali opere facessero parte di questi set di dati, gli autori sostengono che provenissero da “famigerati siti web di biblioteche ombra”, come Library Genesis, Z-Library, Sci-Hub e Bibliotik.

“Queste biblioteche ombra, palesemente illegali, sono state a lungo oggetto di interesse per la comunità dei formatori di IA: ad esempio, un set di dati pubblicato nel dicembre 2020 da EleutherAa e chiamato “Books3″ include una riproduzione della collezione Bibliotik e contiene quasi 200.000 libri”, scrive l’avvocato degli autori Joseph Saveri, che rappresenta anche i programmatori nella class action proposta contro OpenAI e Microsoft.

OpenAI non divulga più informazioni sulle fonti del suo set di dati. E le motivazioni riguardano “il panorama competitivo e le implicazioni per la sicurezza di modelli su larga scala come il Gpt-4”, ha dichiarato l’anno scorso l’azienda. La causa è stata intentata da Paul Tremblay e Mona Awad. Un’azione che mira a rappresentare una categoria di centinaia di migliaia di autori negli Stati Uniti. Tremblay ha scritto il romanzo La casa alla fine del mondo, che è stato adattato da M. Night Shyamalan in Bussano alla porta (2023). La querela denuncia, tra le altre cose, violazioni dirette del copyright, violazioni del Digital Millennium Copyright Act, guadagno ingiusto e negligenza.

OpenAI e Microsoft, che possiede parte della società di intelligenza artificiale, non hanno risposto alle richieste di commento.

“Essenziale regolamentare”

In un’udienza tenutasi a maggio, i principali attori di Hollywood si sono espressi a favore di una legislazione sul tema. Lo hanno fatto davanti alla sottocommissione giudiziaria della Camera, che ha esaminato l’intersezione tra l’IA e la legge sul copyright. La richiesta vuole impedire la raccolta dilagante, e non autorizzata, delle loro opere al fine di allenare i sistemi di intelligenza artificiale. “La rapida introduzione di sistemi di IA generativi è vista come una minaccia esistenziale per il sostentamento e la continuità delle nostre professioni creative, ha dichiarato durante l’audizione Ashley Irwin, presidente della Society of Composers and Lyricists. E aggiunge: “A meno che non vengano presi provvedimenti immediati sul fronte legale, interpretativo ed economico per affrontare questi problemi emergenti”.

“È essenziale dare priorità alle politiche e ai regolamenti per salvaguardare la proprietà intellettuale e il diritto d’autore dei creatori – continua Irwin – e preservare il variegato e dinamico panorama culturale degli Stati Uniti”. Irwin ha inoltre sottolineato che le aziende di Ia dovrebbero essere tenute a ottenere il consenso dei creatori per l’uso delle loro opere al fine di allenamento dei propri software. Nonché compensarli con tariffe di mercato eque per ogni nuova opera creata, oltre a fornire il giusto credito.

Traduzione di Pietro Cecioni