El nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto. La propia Microsoft, de hecho, cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada. La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases. Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía. Y puede lograr grandes resultados con solo tres segundos de voz.
Este "modelo neuronal de códec de lenguaje" destaca por una elevadísima capacidad de síntesis del habla, posible gracias a una biblioteca de audio creada inicialmente por Meta que contiene 60.000 horas de inglés hablado por más de 7.000 interlocutores. Como suele suceder con muchos de estos registros para investigación y desarrollo (desde rostros para reconocimiento fácil a composiciones artísticas para generación de imágenes), gran parte de las muestras de audio proceden del dominio público, y más concretamente de los audiolibros de LibriVox.
Partiendo de esta vasta colección de sonidos humanos, VALL-E puede imitar una voz a partir de un corte de tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación. Con estos datos, la IA puede pronunciar los textos introducidos con sorprendente fidelidad. Según indica ArsTechnica, algunas frases pueden sonar algo enlatadas, pero otras pueden confundirse fácilmente con el habla de una persona real, manteniendo un tono emocional verosímil.
Microsoft tiene grandes expectativas para VALL-E. Algunos de sus posibles usos pasarían por la creación de aplicaciones de texto a voz de alta calidad, algo que podría ser muy útil para personas afectadas de dolencias en las partes del cuerpo que hacen posible el habla a nivel mecánico, así como para aquellas con problemas neurodegenerativos. Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código. Lo que sí ha publicado es un paper que puede ser leído en este enlace.
El objetivo, por tanto, es poder crear discursos de voz a través de una introducción de texto. Esto, sin embargo, trae consigo un inconveniente importante. Si finalmente VALL-E está disponible para el público, muchos podrían utilizarla para suplantar la identidad de las personas. Microsoft, en este caso, detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.
VALL-E es solo un ejemplo más de lo que planea hacer Microsoft con la inteligencia artificial. La firma fundada por Bill Gates, reiteramos, también está interesada en incluir modelos de otras compañías, como GPT de OpenAI, en algunos de sus servicios. Entre ellos, Bing, con el objetivo de ofrecer mejores resultados de búsqueda y, de este modo, competir contra Google.
No hay comentarios:
Publicar un comentario