Giulia Alfieri

Aggiungi Startmag.it

alle tue fonti preferite su Google

OpenAI non sa con quali dati viene addestrato Sora?

La responsabile tecnologica di OpenAI, Mira Murati, ha detto al Wall Street Journal che non è sicura di quali dati vengono utilizzati per addestrare Sora, l'applicazione di intelligenza artificiale che crea sorprendenti video a partire da poche righe di testo. In Italia, all'inizio del mese, il Garante privacy ha avviato un'istruttoria. Tutti i dettagli

31 Marzo 2024 07:43

Giulia Alfieri

Aggiungi Startmag.it

alle tue fonti preferite su Google

Registi e videomaker quando hanno visto cosa è in grado di fare Sora, lo strumento di intelligenza artificiale (IA) di OpenAI che crea video di circa un minuto “realistici” e “fantasiosi” grazie a un banale testo che può digitare chiunque, sono rimasti sconcertati e hanno – comprensibilmente – iniziato a temere per il loro lavoro.

Ma come fa a essere così “brava” Sora? Tutto merito dei dati che la istruiscono, ovvero delle informazioni sotto forma di testo, immagini e video online con cui viene addestrata. Così come avviene per il materiale con cui vengono nutriti ChatGpt e gli altri chatbot di IA, che da un input testuale elaborano (o rielaborano?) quanto scritto da altri (si ricordi il caso del New York Times che ha fatto causa a OpenAI per violazione del copyright).

Tutti questi bei dati che sfamano l’IA però, se appartengono a qualcuno e, dunque non sono pubblici, vanno pagati. Il Wall Street Journal ha quindi chiesto a Mira Murati, direttrice tecnica (Cto) di OpenAI (nonché Ceo per un paio di giorni quando Sam Altman è stato allontanato), da dove provengono quelli utilizzati per addestrare Sora ma le sue risposte non sono state tra le più limpide…

COSA (NON) DICE OPENAI SU SORA

In un’intervista definita da alcuni “cringe“, cioè che suscita imbarazzo e al tempo stesso disagio in chi osserva, Murati ha inizialmente dichiarato che i dati alla base di Sora sono “dati disponibili al pubblico e dati concessi in licenza”.

Ma quando la giornalista del Wsj le ha domandato se questi comprendessero anche video di YouTube, Facebook o Instagram, Murati – visibilmente imbarazzata – ha detto di “non esserne sicura” e ha poi respinto ulteriori domande mirate ad approfondire la questione.

“Non entrerò nei dettagli sui dati utilizzati ma erano dati pubblicamente disponibili o concessi in licenza”, ha ribadito. In merito alla piattaforma di immagini e filmati Shutterstock, con cui OpenAI ha un accordo, Murati ha confermato solo dopo l’intervista che tra i dati concessi in licenza c’erano anche quelli.

Me: What data was used to train Sora? YouTube videos?
OpenAI CTO: I'm actually not sure about that…

(I really do encourage you to watch the full @WSJ interview where Murati did answer a lot of the biggest questions about Sora. Full interview, ironically, on YouTube:… pic.twitter.com/51O8Wyt53c

— Joanna Stern (@JoannaStern) March 14, 2024

LE AZIONI LEGALI CONTRO OPENAI

La reticenza (o l’ignoranza?) di Murati in materia di dati potrebbe essere un modo per evitare ulteriori controversie legate al copyright. OpenAI infatti è al centro di diverse azioni legali per i dati di addestramento dei suoi modelli di IA.

A fine giugno 2023, in California è stata intentata una class action contro la società con l’accusa di aver raccolto segretamente “enormi quantità di dati personali da Internet” senza chiedere il consenso.

Il mese dopo gli autori Sarah Silverman, Richard Kadrey e Christopher Golden hanno citato in giudizio OpenAI per una duplice accusa di violazione del diritto d’autore. Inoltre, nelle cause si sostiene che “ChatGpt e LLaMA di Meta sono stati addestrati su set di dati acquisiti illegalmente contenenti le loro opere”.

E lo scorso dicembre il New York Times ha fatto causa a Microsoft e OpenAI con una denuncia analoga per violazione del copyright, sostenendo che le società hanno utilizzato i suoi articoli per addestrare il chatbot.

CHI L’AVRÀ VINTA?

L’esito dei procedimenti legali tuttavia appare incerto ma, come ha evidenziato più volte nella newsletter Appunti di Stefano Feltri l’avvocato Laura Turini, sembra difficile che a perdere possa essere OpenAI perché quello del copyright è un terreno scivoloso in materia di intelligenza artificiale.

Intanto, il Garante per la privacy, l’8 marzo scorso ha avviato un’istruttoria nei confronti della software house per le possibili implicazioni che Sora potrebbe avere sul trattamento dei dati personali degli utenti che si trovano nell’Unione europea e in particolare in Italia.

Entro 20 giorni OpenAI dovrà precisare se il generatore di video IA verrà offerto agli utenti dell’Ue e chiarire alcune questioni: le modalità di addestramento dell’algoritmo; i dati raccolti ed elaborati per addestrarlo, specialmente se si tratti di dati personali; se tra questi vi siano anche particolari categorie di dati (convinzioni religiose, filosofiche, opinioni politiche, dati genetici, salute, vita sessuale); e quali siano le fonti utilizzate.

Questa volta forse sarà meglio che OpenAI sappia rispondere con più precisione…