skip to Main Content

Google Copyright

Google ha modificato la policy sulla privacy per addestrare l’Ai con i dati pubblici. Tutto ok?

La politica sulla privacy aggiornata di Google afferma che può utilizzare i dati pubblici per addestrare i suoi modelli di intelligenza artificiale, ovvero migliorare i prodotti come le funzionalità Bard e Cloud AI. Fatti e approfondimenti

 

D’ora in avanti le tue ricerche su Google, e non solo, potrebbero rendere più “intelligente” un bot di intelligenza artificiale.

Il 1 luglio il colosso tecnologico di Mountain View ha aggiornato la sua politica sulla privacy per dichiarare che può utilizzare i dati disponibili pubblicamente per aiutare ad addestrare i suoi modelli di intelligenza artificiale.

Nello specifico, nella formulazione della sua politica, Google ha sostituito i “modelli AI” con i “modelli linguistici”. Ha anche affermato che potrebbe utilizzare le informazioni disponibili pubblicamente per creare non solo funzionalità, ma prodotti completi come “Google Translate, Bard [la risposta di Big G al chatbot di OpenAI] e funzionalità Cloud AI”. Dunque Google afferma che raschierà tutto ciò che pubblichi online per l’intelligenza artificiale.

“Se Google può leggere le tue parole, supponi che ora appartengano all’azienda e aspettati che si annidino da qualche parte nelle viscere di un chatbot” osserva Gizmodo. La recente mossa solleva interrogativi e dubbi su questioni di privacy dei dati da parte dei regolatori, dei proprietari di siti Internet e non solo.

Basta pensare alle accuse recentemente mosse nei confronti di OpenAI, la società che ha sviluppato il popolare software di Intelligenza artificiale ChatGpt, e contenute in una class action partita dalla California che potrebbe cambiare lo sviluppo di questi software in cui è coinvolta tutta la Silicon Valley. In Italia la piattaforma è stata sospesa per un mese, fino a fine aprile, dopo i rilievi del Garante Privacy, mentre l’Europa pochi giorni fa ha approvato l’AI Act, la proposta per normare l’intelligenza artificiale.

Senza dimenticare che proprio il web scraping a favore dell’addestramento dell’AI ha attirato l’attenzione di Elon Musk su Twitter, ma anche di un’altra popolare piattaforma come Reddit.

Tutti i dettagli.

LE MODIFICHE ALL’INFORMATIVA SULLA PRIVACY DI GOOGLE RIGUARDO L’AI

A partire dal 1 luglio, la politica recentemente modificata del gigante tecnologico recita: “Google utilizza le informazioni per migliorare i nostri servizi e sviluppare nuovi prodotti, funzionalità e tecnologie a vantaggio dei nostri utenti e del pubblico. Ad esempio, utilizziamo informazioni pubblicamente disponibili per aiutare ad addestrare i modelli AI di Google e creare prodotti e funzionalità come Google Translate, Bard e le funzionalità Cloud AI.”

In precedenza, la politica affermava solo che le informazioni pubblicamente disponibili potevano essere utilizzate per aiutare ad addestrare i “modelli linguistici” di Google e forniva una sola menzione di Google Translate, fa notare Mashable.

I COMMENTI DEGLI ESPERTI

“Questa è una clausola insolita per una politica sulla privacy. In genere, queste politiche descrivono i modi in cui un’azienda utilizza le informazioni che pubblichi sui servizi dell’azienda. Qui, sembra che Google si riservi il diritto di raccogliere e sfruttare i dati pubblicati su qualsiasi parte del Web pubblico, come se l’intera Internet fosse il parco giochi dell’IA dell’azienda” nota ancora Gizmodo.

In Italia, l’esperto di tecnologia Matteo Flora, nel suo canale YouTube “Ciao Internet”, ha affermato che “nella pratica, il cambiamento nella politica di privacy di Google impatta in maniera abbastanza significativa perché ti spiega come verranno utilizzati quei dati – che fino ad ora non erano utilizzati per quello scopo – per addestrare sistemi di intelligenza artificiale. Il che lascia aperti una serie di problemi – che sono gli stessi in cui è incappata OpenAi niente di particolare – ma in questo caso secondo me impattano molto di più”.

Innanzitutto, secondo Flora, sorge un problema di copyright: “Sebbene la politica attuale dice che solo le informazioni pubblicamente disponibili saranno utilizzate non specifica come Google intende evitare che materiale protetto da copyright finiscano all’interno di questo sistema di addestramento”.

Inoltre, prosegue l’esperto Matteo Flora, “non solo numeri di telefono, dati personali, biografie di persone rientrano all’interno del Gdpr, la normativa europea sulla privacy, che dichiara che per i dati personali deve essere richiesto un consenso e da nessuna parte della nuova privacy policy di Google si parla di questo consenso. Nella pratica, basta che un qualunque contenuto sia pubblicamente disponibile per rientrare nell’addestramento dell’AI di Google, quindi nella possibilità per Google di monetizzare questo tipo di contenuti”.

LE CONTROMOSSE DI TWITTER E REDDIT

Anche i proprietari di siti Web che potrebbero essere considerati piazze pubbliche nell’era digitale hanno adottato misure per prevenire o trarre profitto dal boom dell’IA generativa.

Nei giorni scorsi sia Twitter, la piattaforma di micro blogging di proprietà di Elon Musk, sia Reddit hanno disattivato l’accesso gratuito alle loro API, che finora aveva consentito a chiunque lo desiderasse di scaricare grandi quantità di post. Inoltre, il 1° luglio Twitter ha limitato temporaneamente la lettura dei tweet per contenere l’uso di dati disponibili sul social network da parte di soggetti terzi, in particolare da quelli che alimentano modelli di intelligenza artificiale.

È una scelta che è stata presa “per porre rimedio ai livelli estremi di raccolta dati e manipolazione del sistema”, aveva spiegato Elon Musk in un tweet. Già il 30 giugno l’imprenditore statunitense aveva annunciato che non sarebbe più stato possibile leggere i messaggi su Twitter senza connettersi tramite un account. “Quasi tutte le aziende che si occupano di intelligenza artificiale, dalle start-up ai più grandi gruppi del mondo, stavano raccogliendo grandi quantità di dati”, ha spiegato Musk. “È piuttosto irritante dover portare online un gran numero di server in caso di emergenza solo per facilitare la valutazione oltraggiosa di una start-up di intelligenza artificiale”, ha aggiunto.

CRITICHE E TIMORI

Infine, i critici hanno sollevato preoccupazioni sull’uso da parte delle aziende delle informazioni pubblicate online per addestrare i loro modelli di linguaggio di grandi dimensioni per l’uso dell’IA generativa.

Come detto all’inizio, di recente contro OpenAI, il creatore del popolare bot di intelligenza artificiale ChatGPT,  è arrivata una class action accusandola di aver prelevato “enormi quantità di dati personali da Internet”, comprese “informazioni private rubate”, per addestrare i suoi modelli GPT senza previo consenso.

Come osserva il Search Engine Journal, probabilmente assisteremo a molte cause legali simili in futuro, poiché sempre più aziende svilupperanno i propri prodotti di intelligenza artificiale generativa.

Proprio la scorsa settimana nel nostro paese il Garante della Privacy Pasquale Stanzione, in occasione della presentazione della Relazione annuale 2022, ha ricordato l’intervento dell’autorità proprio su ChatGpt “ha consentito di indirizzare lo sviluppo di questa forma d’intelligenza artificiale generativa in una direzione compatibile con la tutela della persona, contrastando lo sfruttamento di quei frammenti dell’io che sono i dati personali”.

Back To Top