Giulia Alfieri

L’intelligenza artificiale è a corto di dati?

Il consenso all'uso dei dati per addestrare l'intelligenza artificiale sembra essere in crisi. Se alcuni editori e piattaforme online bloccano aziende come OpenAI, Anthropic e Google, altri mettono a disposizioni il loro materiale a pagamento. Ma anche questo ha dei risvolti negativi. Fatti e commenti

29 Luglio 2024 07:15

Giulia Alfieri

I dati che alimentano l’intelligenza artificiale (IA) si stanno esaurendo. Ad affermarlo è una nuova ricerca di Data Provenance Initiative, un gruppo di ricerca guidato dal MIT, che ha rilevato un drastico calo dei contenuti resi disponibili per l’addestramento dell’IA. Molte fonti web infatti hanno iniziato a limitare l’uso dei loro dati, attivando paywall o bloccando aziende come OpenAI, Anthropic e Google.

LA CRISI DEL CONSENSO

“Stiamo assistendo a un rapido declino del consenso all’uso dei dati sul web, che avrà ramificazioni non solo per le aziende di intelligenza artificiale, ma anche per i ricercatori, gli accademici e le entità non commerciali”, ha dichiarato Shayne Longpre, autore principale dello studio.

Lo studio, che ha preso in esame 14.000 domini web, ha infatti notato che editori e piattaforme online hanno adottato misure per impedire la raccolta dei loro dati. In particolare, studiando i dati per l’addestramento dell’IA comunemente utilizzati, i ricercatori stimano che il 5% di tutti i dati – e il 25% dei dati provenienti dalle fonti di qualità più elevata – sia stato sottoposto a restrizioni, impostate attraverso il protocollo di esclusione dei robot.

FAVOREVOLI E CONTRARI

I dati sono il nutrimento dell’IA e più sono di alta qualità, migliori sono i risultati che riesce a generare. Se per anni gli sviluppatori sono stati in grado di raccogliere dati in modo abbastanza semplice, l’accelerazione che c’è stata negli ultimi due anni ha provocato reazioni diverse tra i proprietari di dati.

Editori e piattaforme online si sono divisi tra chi ha accettato compromessi con software house come OpenAI per cedergli il proprio materiale e chi invece si rifiuta di farlo creando paywall o modificando i loro termini di servizio.

Tra chi ha stretto accordi economici per fornire dati utili all’addestramento dell’IA ci sono per esempio The Associated Press, News Corp e più di recente The Atlantic, mentre il New York Times si è lanciato in una battaglia legale contro Microsoft per violazione del copyright.

IMPLICAZIONI E DILEMMI

Pagare per ottenere dei dati, soprattutto se soggetti a copyright, è una richiesta sacrosanta ma come ha osservato Yacine Jernite, ricercatore di machine learning presso Hugging Face, un’azienda che fornisce strumenti e dati agli sviluppatori di IA, se tutti i dati relativi all’addestramento dell’IA dovessero essere ottenuti attraverso accordi di licenza, questo escluderebbe “i ricercatori e la società civile dalla partecipazione alla governance della tecnologia”.

“Non sorprende che i creatori di dati abbiano reagito dopo che i testi, le immagini e i video che hanno condiviso online sono stati utilizzati per sviluppare sistemi commerciali che a volte minacciano direttamente i loro mezzi di sostentamento”, ha aggiunto.

Gli fa eco Stella Biderman, direttrice esecutiva di EleutherAI, un’organizzazione di ricerca sull’IA senza scopo di lucro: “Le grandi aziende tecnologiche possiedono già tutti i dati. La modifica della loro licenza non revoca retroattivamente tale autorizzazione e l’impatto principale è sui soggetti che arrivano più tardi, che di solito sono piccole start-up o ricercatori”.

L’IMPORTANZA DI CONTROLLARE L’IA

Per Longpre sono dunque necessari nuovi strumenti che consentano ai proprietari dei siti web di controllare meglio l’uso dei loro dati. Inoltre, in un mondo ideale, alcuni di questi potrebbero metterli a disposizione di organizzazioni no-profit o istituzioni educative e negarli, invece, alle Big Tech.

Ma oltre ai problemi relativi ai dati, le implicazioni dell’IA e la velocità con cui sta evolvendo impongono un controllo severo di questa tecnologia che rischia di sfuggire e di finire nelle mani sbagliate. Basti pensare che un recente report dell’Internet Watch Foundation (IWF) afferma che la quantità di materiale di abuso sessuale su minori generato dall’intelligenza artificiale e pubblicato online è in aumento.

In una verifica di 30 giorni effettuata questa primavera su un forum del dark web utilizzato per condividere materiale di questo tipo, l’IWF ha trovato un totale di 3.512 immagini e video creati con l’intelligenza artificiale, la maggior parte dei quali realistici. Il numero di immagini è aumentato del 17% rispetto al numero di immagini trovate in una revisione simile condotta nell’autunno del 2023.

L’esame dei contenuti, inoltre, ha rilevato che una percentuale maggiore di materiale pubblicato sul dark web raffigura ora atti sessuali più estremi o espliciti rispetto a sei mesi fa.