Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon
Mostrando entradas con la etiqueta VALL-E. Mostrar todas las entradas
Mostrando entradas con la etiqueta VALL-E. Mostrar todas las entradas

PostHeaderIcon Microsoft presenta VALL-E, una IA capaz de imitar la voz de cualquier persona tras solo escuchar tres segundos de ella


El nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto. La propia Microsoft, de hecho, cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada. La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases. Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía. Y puede lograr grandes resultados con solo tres segundos de voz.