Skip to content

lingua intelligenza artificiale

Aggiungi Startmag.it

alle tue fonti preferite su Google

Se non parli inglese meglio non chiedere all’IA. Report Economist

Perché i grandi modelli di intelligenza artificiale sono meno accurati, più costosi e potenzialmente rischiosi per chi non parla inglese, e cosa si sta facendo per colmare questo divario digitale. L'articolo dell'Economist

 

Per ottenere la risposta più accurata da un modello linguistico di grandi dimensioni (LLM), è fondamentale interrogarlo nella lingua giusta. Un utente di lingua inglese che chieda a un modello leader a livello mondiale cosa fare per le gambe gonfie in fase avanzata di gravidanza, ad esempio, potrebbe essere avvisato di prestare attenzione alla pre-eclampsia. Una futura madre che parla swahili, invece, avrebbe più probabilità di sentirsi dire di non preoccuparsi – scrive l’Economist.

DIFFERENZE DI ACCURATEZZA TRA LINGUE

Questo illustra un problema diffuso: anche quando la versione in lingua inglese di un modello supera i test di sicurezza, può comunque generare allucinazioni e disinformazione pericolosa in altre lingue. […] In una ricerca pubblicata nell’ottobre 2025, gli studiosi hanno scoperto che l’accuratezza nelle lingue non inglesi era inferiore di circa 12-29 punti percentuali rispetto all’inglese, a seconda del modello utilizzato.

URGENZA DEL PROBLEMA NELLE REGIONI NON ANGLOFONE

Il problema sta diventando urgente con l’accelerazione dell’uso degli LLM nelle regioni non anglofone. Se strumenti destinati alla diagnosi medica e al triage non tengono conto del divario linguistico, potrebbero non essere all’altezza del compito. Due ricercatori che lavorano per stabilire l’entità di questo gap sono Tuka Alhanai della New York University Abu Dhabi e Mohammad Ghassemi della Michigan State University. Nel febbraio 2025 hanno rilasciato un “benchmark”: un test per la capacità degli LLM di comprendere altre lingue.

IMPATTO DELLA DOMINANZA DELL’INGLESE NEI DATI

[…] La dominanza dei dati in lingua inglese non influisce solo sulle risposte fornite dagli LLM, ma modella anche il loro funzionamento. Prima di elaborare il testo, i modelli lo scompongono in piccole unità note come token. I modelli addestrati prevalentemente in inglese spesso frammentano i testi in altre lingue in modo inefficiente, richiedendo più token per esprimere lo stesso significato. Poiché gli sviluppatori pagano l’accesso ai modelli in base al numero di token elaborati, lo stesso comando può costare fino a cinque volte di più in un’altra lingua rispetto all’inglese.

LIMITI DEI MODELLI MULTILINGUE

Anche i modelli esplicitamente multilingue soccombono a queste pressioni. Una ricerca del maggio 2025 mostra che spesso il modello risponde a domande non inglesi recuperando prima i fatti in inglese e traducendo la risposta solo nella fase finale. L’aggiunta di tali passaggi introduce ulteriori opportunità di errore.

POSSIBILI SOLUZIONI E PROSPETTIVE FUTURE

Fortunatamente, l’aggiunta anche di piccole quantità di dati non inglesi all’addestramento può contribuire a migliorare le prestazioni. La dottoressa Alhanai e il suo team hanno scoperto che il perfezionamento di un modello con un piccolo numero di campioni di alta qualità aumenta l’accuratezza in quella lingua di oltre cinque punti percentuali. Un approccio più intensivo consiste nel riprogettare il modo in cui i modelli scompongono il testo in token. Per ora, tuttavia, afferma la dottoressa Alhanai, “le persone che avrebbero più da guadagnare sono quelle meno in grado di utilizzare questi strumenti”.

(Estratto dalla rassegna stampa estera a cura di eprcomunicazione)

Torna su