OpenAI risponde al New York Times: “Il giornale ha manipolato intenzionalmente i comandi del software”

La dichiarazione, pubblicata sul blog ufficiale della società di Sam Altman, reagisce a una causa intentata dall’editore per violazione del copyright, ma secondo la compagnia sarebbe "un bug raro"

OpenAI ha risposto al New York Times dopo che la società è stata citata in giudizio per violazione del copyright a causa dell’uso di articoli dell’editore per addestrare il suo chatbot di intelligenza artificiale. In un post sul suo blog, l’azienda guidata da Sam Altman ha affermato che il New York Times “non sta raccontando tutta la storia” e ha sostenuto che il giornale ha “manipolato intenzionalmente” i prompt (cioè gli input, i comandi, che l’utente può inserire nel sistema per generare una risposta, ndr) per far sembrare che ChatGPT generi estratti di articoli quasi identici, parola per parola.

“Anche quando si utilizzano tali prompt, i nostri modelli normalmente non si comportano nel modo insinuato dal New York Times, il che suggerisce che abbiano istruito il modello a rigurgitare quelle cose o che abbiano scelto apposta quegli esempi tra molti tentativi”, si legge nel post.

OpenAI ha affermato che questo contenuto rigurgitato parola per parola è un “bug raro”. L’azienda ha aggiunto che ci sono delle misure di sicurezza per limitare la “memorizzazione accidentale”, e che, in base alle sue condizioni d’uso, gli utenti non possono chiedere ai modelli di produrre risposte che possano violare i diritti della proprietà intellettuale.

La risposta di OpenAI

Il post è stato pubblicato in risposta alla causa intentata il mese scorso dal New York Times per i nuovi problemi di copyright sollevati dall’IA generativa, una causa che potrebbe avere implicazioni di vasta portata sul settore dell’editoria giornalistica.

L’editore ha presentato ampie prove di prodotti di OpenAI e Microsoft che, quando sollecitati tramite prompt, visualizzano estratti di articoli identici, quasi parola per parola, che presumibilmente vanno ben oltre i frammenti di testo tipicamente mostrati nei normali risultati di ricerca. Un esempio: Bing Chat ha copiato tutte le prime 396 parole, tranne due, dell’articolo del 2023 The Secrets Hamas knew about Israel’s Military (I segreti che Hamas conosceva sull’esercito di Israele). Un reperto mostra altre 100 situazioni in cui il GPT di OpenAI è stato addestrato con articoli del New York Times e li ha memorizzati.

Nel post, OpenAI sostiene che l’addestramento dei modelli di intelligenza artificiale utilizzando gli articoli dell’editore e altri “materiali disponibili pubblicamente su Internet” è un uso corretto, che consente di utilizzare opere protette da copyright per realizzare una creazione secondaria, purché sia trasformativa.

“Detto questo, per noi il diritto legale è meno importante dell’essere buoni cittadini”, aggiunge l’azienda. “Siamo stati tra i primi nell’industria dell’IA a mettere a disposizione un semplice processo di opt-out per gli editori (che il New York Times ha adottato nell’agosto 2023), per impedire ai nostri strumenti di accedere ai loro siti”.

New York Times e OpenAI

Secondo la denuncia, il New York Times ha contattato OpenAI ad aprile per esplorare un accordo che risolvesse i problemi legati all’uso dei suoi articoli come materiale di addestramento. L’organizzazione mediatica, dopo il rilascio molto pubblicizzato di ChatGPT e BingChat, aveva messo in guardia l’azienda e Microsoft sul fatto che la loro tecnologia violava opere protette da copyright. I termini di una risoluzione prevedevano un accordo di licenza e l’istituzione di paletti per gli strumenti di intelligenza artificiale generativa.

OpenAI ha dichiarato che le trattative si sono concentrate su una partnership per la “visualizzazione in tempo reale con attribuzione in ChatGPT”. Le trattative, tuttavia, sono fallite perché l’azienda ha sostenuto che i contenuti dell’editore “non hanno contribuito in modo significativo all’addestramento dei nostri modelli esistenti e non avrebbero avuto un impatto sufficiente per l’addestramento futuro”.

In risposta alle accuse secondo cui ChatGPT genera estratti che riproducono quasi parola per parola interi articoli, OpenAI ha replicato che le risposte indotte dal Times “sembrano provenire da articoli vecchi di anni che hanno proliferato su diversi siti web di terze parti”. Ha spiegato: “Sembra che abbiano intenzionalmente manipolato i prompt, spesso includendo lunghi estratti di articoli, per farli poi rigurgitare al nostro modello”.

L’IA e il giornalismo

Poiché i contenuti delle principali testate giornalistiche vengono ingeriti dalle aziende di IA, giornali e riviste si trovano sempre più spesso a dover scegliere se accettare accordi di licenza e alimentare potenziali concorrenti che potrebbero sostituirli, o se contrattaccare con un’azione legale. Axel Springer, proprietario di Politico e Business Insider e del quotidiano tedesco Bild, ha accettato il denaro, mentre il New York Times è diventato la prima grande azienda del settore media a fare causa.

L’accertamento della violazione potrebbe comportare risarcimenti ingenti, poiché il massimo previsto dalla legge per ogni violazione intenzionale è di 150mila dollari. Potrebbe anche portare a un ordine del tribunale che richieda a OpenAI di terminare il suo modello di intelligenza artificiale, se è stato addestrato su materiale protetto da copyright.

Ian Crosby, avvocato del New York Times, ha dichiarato in un comunicato che “il blog ammette che OpenAI ha utilizzato il lavoro del Times, insieme a quello di molti altri, per costruire ChatGPT”. Ha aggiunto che la società “cerca di sfruttare il massiccio investimento del Times nel suo giornalismo utilizzandolo per costruire prodotti sostitutivi, senza autorizzazione o pagamento. Questo non è affatto un uso corretto”.

Traduzione di Nadia Cazzaniga