Tutoriales y Manuales
Entradas Mensuales
-
►
2024
(Total:
1024
)
- ► septiembre (Total: 50 )
-
▼
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
▼
enero
(Total:
45
)
- Operación policial internacional desmantela el gru...
- Twitter España despide al 80% de su plantilla: se ...
- Un instituto de Massachusetts lleva año y medio co...
- El FBI confirma que el grupo Lazarus de Corea del ...
- WhatsApp multada con 5,5 millones de euros por vio...
- Microsoft Authenticator: ¿Qué es y cómo funciona?
- Anuncios con malware en resultados de búsqueda de ...
- Herramientas para el análisis de malware en Android
- PayPal reconoce una brecha que ha afectado a 35.00...
- Android TV Box comprado en Amazon venía precargado...
- Google prepara un chatbot de búsqueda para competi...
- Samsung Display muestra un nuevo prototipo de pant...
- Paquetes maliciosos PyPi ‘Lolip0p’ instalan malwar...
- ¿Qué potencia de fuente de alimentación necesito s...
- La IA generativa recibe su primera demanda por inf...
- Musk se enfrenta al juicio por fraude bursátil por...
- Si trabajas con pantallas y usas gafas o lentillas...
- Organismo de control Estados Unidos consiguió crac...
- Se cumplen diez años de la muerte por inducción al...
- Un error informático paraliza los vuelos comercial...
- Disponible Paint.NET 5.0
- Bielorrusia legaliza la piratería de películas, mú...
- Microsoft quiere invertir 9.300 millones en OpenAI...
- Microsoft presenta VALL-E, una IA capaz de imitar ...
- 'Supercookies' imbloqueables: Telefónica, Vodafone...
- Valetudo es un firmware para evitar que robo aspir...
- El chat de salud de Google resuelve dudas de pacie...
- Wikipedia sufre un nuevo ataque de censura por par...
- Múltiples vulnerabilidades en grandes y conocidas ...
- Silk Road, el primer mercado de la Dark Web
- PiKVM V4: proyecto basado en una Raspberry Pi 4, s...
- Windows Sandbox - "Espacio Aislado"
- Sistemas operativos alternativos a Android e iOS
- El diario The Guardian sigue teletrabajando un mes...
- Facebook e Instagram multadas con 390 millones eur...
- Detenidos cerca de Barcelona estafadores bancarios...
- Evadiendo protecciones de un antivirus
- Un dispositivo militar con datos biométricos de mi...
- Microsoft quiere integrar ChatGPT en buscador Bing
- Acelerar el arranque de inicio de Windows
- Vulnerabilidad en los altavoces de Google Home per...
- One Laptop per Child (OLPC)
- Grupo de ransomware LockBit pide disculpas por ata...
- Descargar una copia de todos los correos y adjunto...
- Google pagará 9,5 millones por rastrear la ubicaci...
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
-
Pese a que Gemini ofrece multitudes de opciones, recientemente, se ha dado a conocer una situación fuera de lo común. Hace unos días, un es...
-
Si estos días vas a cualquiera de las plataformas de venta que hay en internet y buscas un USB probablemente te encuentras con no pocos con ...
Microsoft presenta VALL-E, una IA capaz de imitar la voz de cualquier persona tras solo escuchar tres segundos de ella
El nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto. La propia Microsoft, de hecho, cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada. La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases. Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía. Y puede lograr grandes resultados con solo tres segundos de voz.
Este "modelo neuronal de códec de lenguaje" destaca por una elevadísima capacidad de síntesis del habla, posible gracias a una biblioteca de audio creada inicialmente por Meta que contiene 60.000 horas de inglés hablado por más de 7.000 interlocutores. Como suele suceder con muchos de estos registros para investigación y desarrollo (desde rostros para reconocimiento fácil a composiciones artísticas para generación de imágenes), gran parte de las muestras de audio proceden del dominio público, y más concretamente de los audiolibros de LibriVox.
Partiendo de esta vasta colección de sonidos humanos, VALL-E puede imitar una voz a partir de un corte de tres segundos y una ground truth a partir de una grabación de esa misma persona diciendo una frase concreta para ejecutar posteriormente una comparación. Con estos datos, la IA puede pronunciar los textos introducidos con sorprendente fidelidad. Según indica ArsTechnica, algunas frases pueden sonar algo enlatadas, pero otras pueden confundirse fácilmente con el habla de una persona real, manteniendo un tono emocional verosímil.
Microsoft tiene grandes expectativas para VALL-E. Algunos de sus posibles usos pasarían por la creación de aplicaciones de texto a voz de alta calidad, algo que podría ser muy útil para personas afectadas de dolencias en las partes del cuerpo que hacen posible el habla a nivel mecánico, así como para aquellas con problemas neurodegenerativos. Sin embargo, también existe un riesgo importante de que se produzca un uso fraudulento de VALL-E, y por este motivo Microsoft no ha querido divulgar el código. Lo que sí ha publicado es un paper que puede ser leído en este enlace.
El objetivo, por tanto, es poder crear discursos de voz a través de una introducción de texto. Esto, sin embargo, trae consigo un inconveniente importante. Si finalmente VALL-E está disponible para el público, muchos podrían utilizarla para suplantar la identidad de las personas. Microsoft, en este caso, detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.
VALL-E es solo un ejemplo más de lo que planea hacer Microsoft con la inteligencia artificial. La firma fundada por Bill Gates, reiteramos, también está interesada en incluir modelos de otras compañías, como GPT de OpenAI, en algunos de sus servicios. Entre ellos, Bing, con el objetivo de ofrecer mejores resultados de búsqueda y, de este modo, competir contra Google.
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.