Microsoft decide no lanzar su nueva IA generativa de voz al alcanzar ‘paridad humana’ y ser demasiado realista

Microsoft decide no lanzar su nueva IA generativa de voz al alcanzar ‘paridad humana’ y ser demasiado realista

A comienzos de 2023, Microsoft presentó VALL-E,
una inteligencia artificial con la capacidad de clonar voces a partir de un
clip de tres segundos de la misma. El resultado no era perfecto, pero sí
notable por la capacidad de la IA de replicar el timbre vocal del hablante, su
tono emocional y el entorno acústico apreciable en la grabación original. Año y
medio después, Microsoft ha anunciado que ha concluido el desarrollo de su
sucesor, VALL-E 2. Según el equipo de investigadores responsable, la
herramienta ahora es capaz de clonar de manera totalmente convincente las
voces de las personas y ha alcanzado ‘la paridad humana’. Dado su potencial
para usos maliciosos, Microsoft ha decidido no lanzarlo al público y
destinarlo únicamente a ‘propósitos de investigación’.

Al igual que su predecesor, VALL-E 2 es un modelo de
lenguaje de códec neuronal, una categoría dentro del Deep Learning o
aprendizaje profundo que utiliza técnicas de redes neuronales para codificar y
decodificar información lingüística. Sin embargo, a diferencia de VALL-E,
VALL-E 2 realiza síntesis de texto a voz sin entrenamiento previo específico,
lo que significa que usa instrucciones de texto para generar voces con las que
no ha sido entrenada. Con VALL-E, los resultados eran notablemente mejores
cuando el clip original contenía una voz similar a aquellas con las que había
sido entrenado.

VALL-E 2 utiliza una vasta biblioteca de entrenamiento, en
este caso LibriSpeech y VCTK, para mapear las entradas de texto
con las correspondientes salidas de audio. Este mapeo acomoda variaciones en
la pronunciación, entonación, cadencia y más aspectos. Después de
‘escuchar’ un breve clip del habla de alguien junto con la entrada de texto del
usuario, VALL-E 2 incorpora esas variaciones en su respuesta para producir un
habla artificial que imita la voz muestreada y contiene lo indicado en la
entrada de texto.

Los generadores de voz por IA son sorprendentes, pero es muy
difícil conseguir que suenen de forma completamente natural. Y no es lo mismo
hacerlo con frases sencillas que con discursos más elaborados. Pero según los
investigadores del Grupo de Computación del Lenguaje Natural en Microsoft
Research Asia, VALL-E 2 lo hace sin problemas. Tan bien, de hecho, que el
generador de voz, de acuerdo con ellos, es el primero en ‘lograr la paridad
humana’ y ponerlo a disposición del público podría causar más mal que bien.

‘VALL-E 2 es puramente un proyecto de investigación’,
dice la publicación del blog de los investigadores. ‘Actualmente, no tenemos
planes de incorporar VALL-E 2 en un producto o expandir el acceso al público.
Puede conllevar riesgos potenciales en el uso indebido del modelo, como
suplantación de identificación de voz o imitación de un hablante específico’.

El equipo señala que VALL-E 2 podría ser útil en la
educación o el entretenimiento, donde el modelo podría ser un narrador de
cursos online o audiolibros manteniendo la voz natural de una persona en
particular. Otros generadores de voz, como Voicebox de Meta y la
herramienta de narración impulsada por IA de Alexa de Amazon, han
suscitado controversia sobre la ética de permitir que la IA imite la voz de una
persona real, especialmente cuando esa persona ya no existe para dar su
consentimiento. Al igual que otras formas de IA generativa, los generadores
de voz también plantean cuestiones sobre su uso en lugar de trabajadores
humanos, algo que preocupa particularmente a los actores de voz.

Con VALL-E 2 bajo llave, es fácil para Microsoft probar los
límites prácticos del modelo sin entrar en problemas. ‘Realizamos los
experimentos bajo la suposición de que el usuario acepta ser el hablante
objetivo en la síntesis de voz’, explican los investigadores. ‘Si el modelo se
generaliza a hablantes no vistos en el mundo real, debería incluir un
protocolo para asegurar que el hablante apruebe el uso de su voz y un modelo de
detección de voz sintetizada’.