Strumenti sviluppati per rimuovere le protezioni di sicurezza dai modelli di intelligenza artificiale di Meta e Google hanno permesso di creare in pochi minuti versioni alterate dei sistemi, prive dei cosiddetti guardrail. Le verifiche condotte dal Financial Times insieme al gruppo Alice hanno mostrato modelli in grado di rispondere a richieste su armi biologiche, malware e contenuti di abuso su minori, evidenziando quanto rapidamente possano essere aggirati i controlli progettati in fase di sviluppo.
TECNOLOGIE DI MODIFICA E DIFFUSIONE DEI MODELLI
Nel caso analizzato, uno strumento disponibile su GitHub, Heretic, è stato utilizzato per rimuovere le protezioni dal modello open source Llama 3.3 di Meta. Il test non ha richiesto hardware specializzato e ha utilizzato poche righe di codice, completandosi in meno di dieci minuti. Secondo i ricercatori, la versione modificata ha iniziato a rispondere a domande che il modello originale rifiutava, incluse richieste su sostanze altamente tossiche come la ricina.
Il creatore del software Philipp Emanuel Weidmann ha dichiarato al Ft che oltre 3.500 modelli “decensurati” sono stati generati con il suo strumento e che le versioni modificate sono state scaricate 13 milioni di volte, segnalando anche la rimozione delle protezioni dal modello Gemma 4 di Google poco dopo il rilascio.
CONTROLLI DELLE AZIENDE TECH NON BASTANO
Le aziende tecnologiche investono milioni di dollari nello sviluppo di sistemi di sicurezza per prevenire abusi dell’intelligenza artificiale, ma tecniche come l’“abliteration” consentono di rimuovere rapidamente questi meccanismi dai modelli open source. Questi sistemi, una volta scaricabili, possono infatti essere modificati e riutilizzati senza il controllo delle aziende che li hanno sviluppati.
Per Google, l’“abliteration” rappresenta una sfida tecnica comune a tutti i modelli aperti e i sistemi vengono sottoposti a valutazioni di sicurezza prima del rilascio per prevenire scenari problematici. Meta, invece, non ha rilasciato commenti diretti, mentre fonti interne hanno ricordato che i modelli vengono valutati attraverso un framework di sicurezza interno e che quelli considerati a rischio “catastrofico” non vengono pubblicati senza adeguate mitigazioni.
BASTA UNA POESIA PER SUPERARE I CONTROLLI
Il problema delle protezioni, scrive il New York Times, è stato descritto anche come una forma di “jailbreaking”, ovvero l’insieme di tecniche che permettono di indurre i modelli a ignorare i propri vincoli. In alcuni casi bastano semplici riformulazioni del linguaggio, inclusi testi poetici o metaforici, per aggirare le restrizioni.
Secondo Piercosma Bisconti, cofondatore della startup romana Dexai, che si occupa di etica e impatto sociale dell’IA, “la poesia è solo un esempio di come si possa riformulare un prompt in quasi qualsiasi stile per superare le guardrail”. Il fenomeno non riguarda solo casi isolati, ma una gamma crescente di metodi che sfruttano la natura linguistica dei modelli.
DIFESE CHE NON STANNO AL PASSO CON L’EVOLUZIONE
Il problema, osservava a inizio anno il Guardian, si inserisce in un contesto in cui le capacità dei sistemi stanno crescendo rapidamente. Secondo l’AI Security Institute del governo britannico, le prestazioni dei modelli avanzati stanno migliorando in modo accelerato, con alcuni indicatori che raddoppiano circa ogni 8 mesi. I sistemi più avanzati sono già in grado di completare compiti di livello umano junior in circa metà dei casi e possono eseguire autonomamente attività complesse che richiedono oltre un’ora di lavoro umano.
L’istituto ha inoltre testato capacità di auto-replicazione, rilevando che alcuni modelli hanno raggiunto tassi di successo superiori al 60%, pur sottolineando che scenari estremi restano poco probabili nelle condizioni operative reali.
Tuttavia, stando all’articolo del Ft, le versioni modificate dei modelli hanno mostrato la capacità di rispondere a richieste su armi chimiche, malware e altri contenuti pericolosi. In alcuni test, i sistemi hanno anche prodotto codice per attività informatiche illecite e contenuti relativi ad abusi su minori.
Stando ai ricercatori citati dal Nyt, tali vulnerabilità si inseriscono proprio nella dinamica di “jailbreaking”, dove chi individua una falla tende talvolta a non divulgarla per mantenere un vantaggio operativo, rallentando così la chiusura delle stesse falle da parte delle aziende.
COSA PENSANO RICERCATORI ED ESPERTI
La velocità a cui corre l’IA è un problema secondo diversi esperti. David Dalrymple, responsabile di programma presso l’agenzia britannica Aria, ha dichiarato che “le cose stanno andando davvero velocemente e potremmo non avere tempo per metterci al passo dal punto di vista della sicurezza”, aggiungendo che entro pochi anni molte attività economiche potrebbero essere svolte meglio dalle macchine rispetto agli esseri umani.
Geoffrey Hinton, considerato il “padrino” dell’IA, ha sottolineato il rischio che sistemi più intelligenti possano manipolare gli esseri umani, mentre Yoshua Bengio, il ricercatore di informatica più citato al mondo e vincitore del Premio Turing, ha segnalato l’emergere di comportamenti ingannevoli nei modelli avanzati e la scoperta di vulnerabilità informatiche sconosciute.
Anche secondo il cofondatore di Anthropic, Dario Amodei, esiste un rischio significativo di attacchi su larga scala con potenziali conseguenze estese, mentre rapporti interni dell’azienda hanno descritto comportamenti dei modelli capaci di sabotaggio e azioni non autorizzate.






