Bastano tre secondi di audio parlato perché Vall-E possa riprodurre, fedelmente, tono e cadenza di un essere umano. Si tratta dell'ultima frontiera dell'intelligenza artificiale, presentata dai ricercatori di Microsoft. Il modello è stato istruito su oltre 60.000 ore di discorsi e parole, in inglese, provenienti da oltre 7.000 fonti, tra cui audiolibri di dominio pubblico dell'archivio LibriVox.
Alcuni risultati vocali generati da Vall-E sono stati pubblicati sulla pagina https://valle-demo.github.io e dimostrano il livello a cui la tecnologia è arrivata. Alcuni studiosi della Cornell University hanno analizzato le prestazioni del software, concludendo che questo supera in modo significativo i sistemi di sintesi vocale attuali, conosciuti come "text to speech", che riproducono un testo scritto. "Non c'è nulla di simile, oggi sul mercato, in termini di naturalezza della pronuncia e di somiglianza con la voce originale" dicono dall'Università. Come nel caso dell'AI su cui si basa la piattaforma ChatGpt, che consente a chiunque di porre via web domande e ricevere risposte complesse, anche Vall-E solleva interrogativi sui suoi utilizzi poco etici. Ricreare voci al computer da associare a video falsi, del tipo deep fake, apre a problemi di sicurezza ancora inesplorati. Secondo gli esperti, i criminali informatici potrebbero sfruttare tecnologie del genere per ingannare le persone, via chat o tramite telefonate, facendosi credere qualcun altro. Affrontando i rischi di un uso improprio di Vall-E, i ricercatori spiegano però che questi possono essere mitigati: "È possibile creare un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da Vall-E o meno. Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l'ulteriore sviluppo della tecnica".