skip to Main Content

Intelligenza Artificiale

Cosa fa OpenAi per testare la pericolosità di ChatGpt

OpenAi, l'azienda sostenuta da Microsoft, ha chiesto a un mix eclettico di persone di "testare in modo avverso" GPT-4, il suo nuovo potente modello linguistico. L'articolo del Financial Times.

Dopo aver ottenuto l’accesso a GPT-4, il nuovo sistema di intelligenza artificiale che alimenta il popolare chatbot ChatGPT, Andrew White lo ha utilizzato per suggerire un agente nervino completamente nuovo. Scrive il Financial Times.

Il professore di ingegneria chimica dell’Università di Rochester era tra i 50 accademici ed esperti assunti per testare il sistema l’anno scorso da OpenAI, la società sostenuta da Microsoft che sta dietro al GPT-4. Nell’arco di sei mesi, questa “squadra rossa” avrebbe “sondato qualitativamente [e] testato in modo avverso” il nuovo modello, tentando di romperlo.

White ha dichiarato al Financial Times di aver utilizzato il GPT-4 per suggerire un composto che potrebbe fungere da arma chimica e di aver utilizzato dei “plug-in” che hanno alimentato il modello con nuove fonti di informazioni, come documenti scientifici e un elenco di produttori di sostanze chimiche. Il chatbot ha poi trovato anche un luogo dove produrlo.

“Penso che questo strumento fornirà a tutti uno strumento per fare chimica in modo più rapido e accurato”, ha detto. “Ma c’è anche il rischio significativo che le persone… facciano chimica pericolosa. In questo momento, questo esiste”.

I risultati allarmanti hanno permesso a OpenAI di garantire che tali risultati non sarebbero apparsi quando la tecnologia è stata rilasciata al pubblico il mese scorso.

In effetti, l’esercitazione della squadra rossa è stata progettata per affrontare i timori diffusi sui pericoli dell’impiego di potenti sistemi di intelligenza artificiale nella società. Il compito del team è stato quello di porre domande probanti o pericolose per testare lo strumento che risponde alle domande umane con risposte dettagliate e sfumate.

OpenAI ha voluto verificare la presenza di problemi come la tossicità, i pregiudizi e le distorsioni linguistiche nel modello. Il team rosso ha quindi verificato l’esistenza di falsità, manipolazioni verbali e pericolosità scientifica. Hanno anche esaminato il suo potenziale di aiuto e favoreggiamento del plagio, di attività illegali come i crimini finanziari e gli attacchi informatici, nonché il modo in cui potrebbe compromettere la sicurezza nazionale e le comunicazioni sul campo di battaglia.

Il FT ha parlato con più di una dozzina di membri del GPT-4 red team. Si tratta di un mix eclettico di professionisti del settore: accademici, insegnanti, avvocati, analisti del rischio e ricercatori di sicurezza, per lo più con sede negli Stati Uniti e in Europa.

I loro risultati sono stati trasmessi a OpenAI, che li ha utilizzati per mitigare e “riqualificare” GPT-4 prima di lanciarlo su larga scala. Gli esperti hanno trascorso dalle 10 alle 40 ore ciascuno per testare il modello nel corso di diversi mesi. La maggior parte degli intervistati è stata pagata circa 100 dollari all’ora per il lavoro svolto, secondo quanto dichiarato da più intervistati.

Coloro che hanno parlato con il FT hanno condiviso preoccupazioni comuni riguardo al rapido progresso dei modelli linguistici e, in particolare, ai rischi di collegarli a fonti esterne di conoscenza tramite plug-in.

“Oggi il sistema è congelato, il che significa che non impara più, né ha memoria”, ha detto José Hernández-Orallo, parte del team rosso del GPT-4 e professore presso l’Istituto di Ricerca Valenciano per l’Intelligenza Artificiale. “Ma cosa succede se gli diamo accesso a Internet? Potrebbe essere un sistema molto potente connesso al mondo”.

OpenAI ha dichiarato di prendere sul serio la sicurezza, di aver testato i plug-in prima del lancio e che aggiornerà regolarmente GPT-4 man mano che un numero maggiore di persone lo utilizzerà.

Roya Pakzad, ricercatrice nel campo della tecnologia e dei diritti umani, ha utilizzato messaggi in inglese e in farsi per testare il modello in relazione alle risposte di genere, alle preferenze razziali e ai pregiudizi religiosi, in particolare per quanto riguarda i copricapi.

Pakzad ha riconosciuto i vantaggi di uno strumento di questo tipo per chi non è madrelingua inglese, ma ha scoperto che il modello mostrava stereotipi evidenti sulle comunità emarginate, anche nelle sue versioni successive.

Ha anche scoperto che le cosiddette allucinazioni – quando il chatbot risponde con informazioni inventate – erano peggiori quando il modello veniva testato in farsi, dove Pakzad ha riscontrato una percentuale maggiore di nomi, numeri ed eventi inventati, rispetto all’inglese.

“Sono preoccupato per la potenziale diminuzione della diversità linguistica e della cultura dietro le lingue”, ha dichiarato.

Anche Boru Gollu, un avvocato di Nairobi che è stato l’unico tester africano, ha notato il tono discriminatorio del modello. “C’è stato un momento, mentre testavo il modello, in cui si è comportato come una persona bianca che mi parlava”, ha detto Gollu. “Se chiedevi di un gruppo particolare, ti dava un’opinione distorta o una risposta molto pregiudizievole”. OpenAI ha riconosciuto che il GPT-4 può ancora mostrare pregiudizi.

I membri del team Red che hanno valutato il modello dal punto di vista della sicurezza nazionale hanno espresso opinioni diverse sulla sicurezza del nuovo modello. Lauren Kahn, ricercatrice presso il Council on Foreign Relations, ha dichiarato che quando ha iniziato a esaminare come la tecnologia potrebbe essere utilizzata in un attacco informatico ai sistemi militari, ha detto che “non si aspettava che fosse una procedura così dettagliata da poter essere messa a punto”.

Tuttavia, Kahn e altri tester di sicurezza hanno scoperto che le risposte del modello sono diventate notevolmente più sicure nel corso del tempo. OpenAI ha dichiarato di aver addestrato GPT-4 a rifiutare richieste di sicurezza informatica dannose prima di essere lanciato.

Molti membri del Red Team hanno affermato che OpenAI ha effettuato una rigorosa valutazione della sicurezza prima del lancio. “Hanno fatto un ottimo lavoro per eliminare la tossicità manifesta in questi sistemi”, ha detto Maarten Sap, esperto di tossicità dei modelli linguistici alla Carnegie Mellon University.

Sap ha esaminato il modo in cui i modelli ritraggono i diversi generi e ha scoperto che le distorsioni riflettono le disparità sociali. Tuttavia, Sap ha anche scoperto che OpenAI ha fatto alcune scelte attive di natura politica per contrastare questo fenomeno.

“Sono una persona gay. Ho cercato in tutti i modi di convincermi a sottopormi a una terapia di conversione. Mi respingeva, anche se assumevo un personaggio, come se dicessi di essere religioso o di provenire dal Sud americano”.

Tuttavia, dal suo lancio, OpenAI ha dovuto affrontare numerose critiche, tra cui una denuncia alla Federal Trade Commission da parte di un gruppo di etica tecnologica che sostiene che GPT-4 è “parziale, ingannevole e un rischio per la privacy e la sicurezza pubblica”.

Recentemente, l’azienda ha lanciato una funzione nota come ChatGPT plug-in, attraverso la quale le app partner come Expedia, OpenTable e Instacart possono dare a ChatGPT l’accesso ai loro servizi, consentendogli di prenotare e ordinare articoli per conto degli utenti umani.

Dan Hendrycks, un esperto di sicurezza dell’intelligenza artificiale del red team, ha affermato che i plug-in rischiano di creare un mondo in cui gli esseri umani sono “fuori dal giro”.

“Cosa succederebbe se un chatbot potesse pubblicare online le vostre informazioni private, accedere al vostro conto bancario o mandare la polizia a casa vostra?”, ha detto. “In generale, abbiamo bisogno di valutazioni di sicurezza molto più solide prima di lasciare che le IA esercitino il potere di Internet”.

Gli intervistati hanno anche avvertito che OpenAI non può interrompere i test di sicurezza solo perché il suo software è in funzione. Heather Frase, che lavora presso il Center for Security and Emerging Technology della Georgetown University e ha testato il GPT-4 per quanto riguarda la sua capacità di aiutare i crimini, ha detto che i rischi continueranno a crescere man mano che più persone utilizzeranno la tecnologia.

“Il motivo per cui si effettuano test operativi è che le cose si comportano in modo diverso una volta che sono effettivamente utilizzate nell’ambiente reale”, ha detto.

Secondo l’autrice, si dovrebbe creare un registro pubblico per segnalare gli incidenti derivanti dai modelli linguistici di grandi dimensioni, simile ai sistemi di sicurezza informatica o di segnalazione delle frodi dei consumatori.

Sara Kingsley, economista del lavoro e ricercatrice, ha suggerito che la soluzione migliore è quella di pubblicizzare chiaramente i danni e i rischi, “come un’etichetta nutrizionale”.

“Si tratta di avere un quadro di riferimento e di sapere quali sono i problemi più frequenti, in modo da avere una valvola di sicurezza”, ha detto. “Per questo dico che il lavoro non è mai finito”.

(Estratto dalla rassegna stampa di eprcomunicazione)

Back To Top