Citami i libri della saga Harry Potter senza dirmi che hai “letto” i volumi di J.K. Rowling in violazione del copyright.
È quello che starebbe provando a fare ChatGpt, la chat basata sull’Intelligenza artificiale generativa che simula la conversazione con un essere umano sviluppata da OpenAI. Secondo una nuova ricerca, ChatGpt sta cercando di nascondere di essere stato addestrato su materiale protetto da copyright, riferiva la scorsa settimana Business Insider.
Aziende come OpenAI sono sotto crescente controllo sul loro utilizzo di materiale protetto da copyright. Il ChatGPT di OpenAI, e sostanzialmente tutti gli altri modelli linguistici di grandi dimensioni o LLM, sono stati addestrati su enormi quantità di dati e testo recuperati da Internet, inclusi molti libri che rimangono protetti da copyright.
Nel frattempo, il quotidiano New York Times ha bloccato il web crawler di OpenAI, quindi lo sviluppatore di ChatGpt non può utilizzare il contenuto della pubblicazione americana per addestrare i suoi modelli di intelligenza artificiale.
Il Nyt sta anche valutando un’azione legale contro OpenAI per violazioni dei diritti di proprietà intellettuale, ha riferito NPR la scorsa settimana. Se facesse causa, il Times si unirebbe ad altri come la comica Sarah Silverman e altri due autori che hanno citato in giudizio la società a luglio per l’uso di Books3, un set di dati utilizzato per addestrare ChatGpt che potrebbe contenere migliaia di opere protette da copyright, così come Matthew Butterick, un programmatore e avvocato che sostiene che le pratiche di data scraping dell’azienda equivalgono alla pirateria del software, riporta The Verge.
Tutti i dettagli.
L’ADDESTRAMENTO DEGLI LLM
Le risposte riguardo i libri di Harry Potter hanno mostrato quanto sia comune l’uso di opere protette da copyright per allenare gli LLM, ovvero i modelli linguistici di grandi dimensioni.
Secondo quanto rivelato da una nuova ricerca, ora ChatGPT tenta di evitare di mostrare questo tipo di lavoro, riporta Insider.
Negli ultimi tempi OpenAI è finita sotto la lente dei regolatori per aver utilizzato tale lavoro senza pagare le informazioni attraverso accordi di licenza o altre autorizzazioni. Ciò ha provocato azioni legali da parte degli autori. Quindi, OpenAI, e altre aziende del calibro di Google, Meta e Microsoft, hanno iniziato a smettere di rivelare su quali dati sono addestrati i loro modelli di intelligenza artificiale.
Ora OpenAI ha fatto un ulteriore passo avanti, suggerisce il nuovo documento di ricerca citato d Insider.
L’ESCAMOTAGE DI OPENAI SUL COPYRIGHT
Secondo un documento tecnico pubblicato l’8 agosto da un gruppo di scienziati esperti di IA che lavorano per il braccio di ricerca di ByteDance, il proprietario di TikTok, adesso ChatGPT tenta di evitare di rispondere alle richieste degli utenti con frasi esatte provenienti da opere protette da copyright.
CHATGPT PREFERISCE NON RISPONDE
Nel tentativo di evitare di mostrare l’addestramento su tale materiale, ChatGPT ora “interrompe gli output quando si tenta di estrarre continuamente la frase successiva… cosa che non accadeva nella versione precedente di ChatGPT”, hanno scritto i ricercatori. Dunque “Supponiamo che gli sviluppatori di ChatGPT abbiano implementato un meccanismo per rilevare se i prompt mirano a estrarre contenuti protetti da copyright o verificare la somiglianza tra gli output generati e i contenuti protetti da copyright.”
TUTTI LE AI ESAMINATE CITANO HARRY POTTER
Nonostante questi sforzi, ChatGPT mostra ancora materiale protetto da copyright, ha rilevato il documento. Come fanno molti altri modelli di intelligenza artificiale, dato che sono stati addestrati su enormi quantità di materiale protetto da copyright. I ricercatori hanno testato tutte le versioni di ChatGPT, OPT-1.3B di Meta, FLAN-T5 di Google, ChatGLM creato dalla Tsinghua University China e DialoGPT creato da Microsoft – tutti hanno risposto a diverse richieste basate sulla serie di libri di Harry Potter di J.K. Rowling con frasi e opere corrispondenti esattamente o quasi ai libri. Secondo il documento, alcune risposte differivano solo di una o due parole.
“Tutti gli LLM emettono testo che assomiglia più a contenuti protetti da copyright che a testi generati casualmente”, afferma la ricerca citata da Business Insider.
COME SI STANNO MUOVENDO GLI EDITORI CON CHATGPT &CO
Intanto, a proposito di testi coperti da copyright, le principali media company stanno stringendo accordi di licenza per consentire alle aziende di Intelligenza artificiale di utilizzare i loro contenuti per addestrare modelli di IA.
Come ricorda Axios, a luglio Associated Press è diventata la prima grande società di notizie a stringere un accordo con OpenAI. Questo consentirà all’azienda di utilizzare i contenuti di Ap per addestrare i suoi modelli di intelligenza artificiale. La scorsa settimana, sempre Ap ha pubblicato un elenco di standard per l’utilizzo dell’intelligenza artificiale generativa nel suo notiziario, scrivendo: “Qualsiasi risultato di uno strumento di intelligenza artificiale generativa dovrebbe essere trattato come materiale sorgente non controllato”.
Anche il Guardian a giugno ha annunciato che utilizzerà l’intelligenza artificiale nei suoi prodotti giornalistici solo “con chiara evidenza di un beneficio specifico, supervisione umana e l’esplicito permesso di un redattore senior”, etichettando l’intelligenza artificiale generativa come “eccitante ma inaffidabile”.
Quel che è certo è che l’accordo commerciale dell’Associated Press con OpenAI potrebbe non servire da modello per altre società di media che valutano gli sforzi per proteggere i propri interessi di proprietà intellettuale, puntualizza Axios.
LA MOSSA DEL NEW YORK TIMES
Infatti, la scorsa settimana, Nrp ha riferito che il New York Times sta prendendo in considerazione un’azione legale contro OpenAI per l’uso non autorizzato delle storie del Times come dati di addestramento. Nel frattempo, in settimana The Verge ha segnalato che il quotidiano americano ha bloccato il web crawler di OpenAI, il che significa che OpenAI non può utilizzare gli articoli della testata per addestrare i suoi modelli di intelligenza artificiale.
Il cambiamento arriva dopo che il Nyt ha aggiornato i suoi termini di servizio il 3 agosto per vietare l’uso dei suoi contenuti per addestrare modelli di intelligenza artificiale.