Intelligenza artificiale sempre più “intelligente”: ChatGpt ora può vedere, ascoltare e parlare.
OpenAI continua ad aggiornare il suo chatbot di AI generativa dal lancio dello scorso novembre e diventato subito un fenomeno: l’azienda ha spiegato che presto il chatbot sarà in grado di conversare con gli utenti tramite voce, mimando quella di una vera persona, oltre alla possibilità di analizzare le foto che un utente caricherà sulla piattaforma.
Le nuove funzionalità danno al chatbot più utilità in questo momento e puntano a un futuro in cui gli strumenti di intelligenza artificiale comprendono il mondo che li circonda, non solo i dati online su cui sono stati addestrati.
In questo modo ChatGpt si avvicina ai servizi AI simili come Siri di Apple, l’assistente vocale di Google, e Alexa di Amazon.Gli aggiornamenti riguardano l’app ufficiale per Android e iOS e saranno disponibili tra due settimane per i clienti che pagano per un abbonamento Plus o Enterprise, rivolto esclusivamente alle aziende.
L’annuncio arriva lo stesso giorno in cui Amazon si è impegnata a investire fino a 4 miliardi di dollari nel rivale di OpenAI Anthropic, una mossa che costituisce parte di una più ampia battaglia sull’intelligenza artificiale generativa tra i giganti della tecnologia mondiale che include Google che cerca di recuperare il ritardo tramite il suo chatbot Bard, Meta adotta una solida etica open source per aiutarsi a ottenere un vantaggio e Microsoft con la stessa OpenAI, osserva TechCrunch.
Tutti i dettagli.
LE NUOVE FUNZIONALITÀ DI CHATGPT
D’ora in avanti ChatGpt può anche narrare favole della buonanotte, risolvere dibattiti a tavola e pronunciare ad alta voce input di testo da parte degli utenti.
“La nuova funzionalità vocale è alimentata da un nuovo modello, in grado di generare un audio simile a quello umano partendo solo dal testo e da alcuni secondi di campionamento della voce” ha spiegato OpenAI tramite un post sul blog aziendale. “Abbiamo collaborato con doppiatori professionisti per creare ciascuna delle voci. Utilizziamo inoltre Whisper, il nostro sistema di riconoscimento del linguaggio open source, per trascrivere le vostre parole pronunciate in testo”.
In una demo del nuovo aggiornamento condivisa da OpenAI, un utente chiede a ChatGPT di inventare una storia sul “super riccio girasole di nome Larry”. Il chatbot è in grado di narrare una storia ad alta voce con una voce dal suono umano che può anche rispondere a domande come “Com’era la sua casa?” e “Chi è il suo migliore amico?”, riporta la Cnn.
La funzionalità vocale “apre le porte a molte applicazioni creative e incentrate sull’accessibilità”, ha evidenziato OpenAI.
LEGGERE LE FOTO COME GOOGLE LENS
Per quanto riguarda la seconda novità, la “lettura” delle immagini, OpenAI sottolinea che presto si potranno caricare foto nella casella di conversazione con ChatGpt per lasciare che questi le analizzi, per fornire indicazioni approfondite. Si potrà, ad esempio, scattare una foto di una serie di ingredienti e lasciare che l’IA crei da questi un piatto, con i passaggi per realizzarlo.
Al momento un servizio popolare per ottenere informazioni su immagini è Google Lens di Alphabet.
Inoltre, la scorsa settimana OpenAI ha dichiarato che presto anche ChatGPT sarà in grado di generare immagini, grazie all’integrazione con DALL-E 3, segnala The Verge.
LA COLLABORAZIONE CON SPOTIFY
Allo stesso tempo, OpenAI ha annunciato una collaborazione con Spotify per tradurre in spagnolo e francese i podcast originali in lingua inglese, proprio grazie alla sua IA. Nello specifico, i podcaster potranno campionare la propria voce e tradurre i propri programmi, pur mantenendo la propria voce originale.
I PRIMI COMMENTI
Quindi, le nuove funzionalità danno al chatbot più utilità in questo momento e puntano a un futuro in cui gli strumenti di intelligenza artificiale comprendono il mondo che li circonda, non solo i dati online su cui sono stati addestrati, sottolinea Axios.
Quasi un anno dopo il lancio iniziale di ChatGpt, OpenAI sembra ancora cercare di capire come dare al suo bot più funzionalità e capacità senza creare nuove serie di problemi e svantaggi, commenta The Verge. “Con queste versioni, l’azienda ha tentato di seguire quella linea limitando deliberatamente ciò che i suoi nuovi modelli potevano fare. Ma questo approccio non funzionerà per sempre. Man mano che sempre più persone utilizzano il controllo vocale e la ricerca di immagini, e man mano che ChatGPT si avvicina sempre più a diventare un assistente virtuale veramente multimodale e utile, diventerà sempre più difficile mantenere i “guardrail” di sicurezza”.