Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
914
)
-
▼
enero
(Total:
680
)
-
Cuidado con la extensión de VS Code ClawdBot Agent...
-
Barco ruso merodeando cerca de cables de datos tra...
-
BlackIce: kit de herramientas Red Team basado en c...
-
Nuevo capítulo de escasez por culpa de la IA: prim...
-
El CEO de Nvidia niega que EE.UU. quiera trasladar...
-
Microsoft elimina el soporte para módems de acceso...
-
Directorio abierto expuesto filtra marco BYOB en W...
-
Meta corrige un grave fallo de seguridad en Whats...
-
NASA estrena Athena, el superordenador capaz de ha...
-
Adiós suscripciones: editor de video gratuito KDEn...
-
Los discos duros suben de precio primero en Corea ...
-
IBM 3380, el primer disco duro de 1 GB: tan grande...
-
3,280,081 dispositivos Fortinet en línea con propi...
-
Wireshark 4.6.3 lanzado con corrección de vulnerab...
-
Qué es Azure Linux, la apuesta de Microsoft por la...
-
GIGABYTE X870E AORUS XTREME X3D AI TOP, caracterís...
-
GIGABYTE afina su BIOS para exprimir el nuevo Ryze...
-
Google pagará 135 millones de dólares a usuarios d...
-
El nuevo Intel Panther Lake supera a AMD Zen 5 en ...
-
Las GPU Intel Arc Alchemist ganan hasta un 260% de...
-
AMD Ryzen 7 9850X3D en Single Channel vs Dual Chan...
-
Ataque DDoS de 31,4 Tbps mediante la botnet Aisuru...
-
Mejores servicios de eliminación de datos personales
-
Microsoft 365: complementos de Outlook se usan par...
-
Las ventas de Xbox Series S y Series X se hunden, ...
-
Explotan vulnerabilidad de FreePBX para desplegar ...
-
Herramienta Swarmer elude EDR con modificación sig...
-
ONLYOFFICE DocSpace: la mejor alternativa a Google...
-
¿Es inseguro utilizar Microsoft Teams y Zoom? En F...
-
Vulnerabilidad crítica en cámaras IP IDIS permite ...
-
Microsoft Exchange Online eliminará la autenticaci...
-
Vulnerabilidad crítica en SolarWinds permite ejecu...
-
Microsoft en el punto de mira: sus centros de IA p...
-
Estafadores están enviando spam desde un correo re...
-
Televés lanza el Booster 3, un dispositivo profesi...
-
El chip Apple M6 debutará a finales de año
-
Vulnerabilidad crítica en vm2 (Node.js) permite es...
-
LaLiga ofrece 50 euros a quien denuncie a los bare...
-
Fallo crítico WinRAR
-
El precio de la memoria RAM DDR4 está aumentando d...
-
Costco quita de sus ordenadores preensamblados la ...
-
El jefe de la CISA subió documentos sensibles a Ch...
-
Copia de seguridad de mi móvil, ¿mejor hacerla en ...
-
ASUS CROSSHAIR X870E DARK HERO y CROSSHAIR X870E G...
-
Fuga de datos en SoundCloud expone detalles de 29,...
-
Incidente en GitHub de ClawdBot acaba en estafa Cr...
-
Samsung confirma que el Galaxy S26 Ultra incluirá ...
-
Asistente de IA viral "Clawdbot" puede filtrar men...
-
Nike investiga filtración de datos tras reclamo de...
-
FRITZ!Box 5690 XGS llega a España, un router perfe...
-
La Comisión Europea revisará la petición «Dejad de...
-
Google filtra su sistema operativo para PC: Alumi...
-
Actualización de seguridad de Chrome corrige vulne...
-
Sabotajes en cables submarinos llevan a Finlandia ...
-
Google anuncia función de protección contra robos ...
-
Google desmantela la mayor red de proxies residenc...
-
Ataques de eSkimming impulsados por amenazas persi...
-
Pedido masivo de NVIDIA H200 de China: más de 2 mi...
-
Estos son los precios de los portátiles con Intel ...
-
Un equipo de ciberseguridad asistido por IA descub...
-
Micron anuncia inversión de 24.000 millones de dól...
-
Intel y AMD subirán los precios de sus CPU para IA...
-
Samsung ultima un Galaxy Wide Fold para triunfar f...
-
NVIDIA dividirá la fabricación de sus sistemas de ...
-
SEGA Meganet: así fue la gran pionera del juego on...
-
Uber presenta robotaxi sin conductor gracias a la ...
-
Realme bate todos los récords con la batería Titan...
-
Prosegur anuncia un sistema de defensa antidrones ...
-
La visión agéntica que Google ha estrenado en Gemi...
-
La OCU de España denuncia una nueva estafa telefón...
-
El director de videojuegos de Google Cloud dice qu...
-
El aumento de los precios de componentes como CPU,...
-
El Reloj del Juicio Final marca 85 segundos en 202...
-
PS5 se actualiza con funciones sociales: ya puedes...
-
Microsoft mejora la sincronización entre Windows 1...
-
HDMI 2.2: el doble de velocidad, 4K a 480 Hz y com...
-
¿Habrá que pagar por usar WhatsApp? Versiones de s...
-
LaLiga lleva sus bloqueos a las IPTV fuera de Espa...
-
Ciudadano chino condenado a 46 meses por lavar mil...
-
Ataque con CAPTCHA falso usa App-V de Microsoft pa...
-
Canva, Atlassian y Epic Games entre más de 100 emp...
-
Los nuevos satélites de Amazon Leo son demasiado b...
-
Alemania es el país europeo con la mitad de los ho...
-
Un activista británico demanda a Valve por 903 mil...
-
Vulnerabilidades en OpenSSL permiten a atacantes r...
-
Google advierte sobre vulnerabilidad en WinRAR exp...
-
El 64% de las aplicaciones de terceros acceden a d...
-
Intel XeSS 3 con Multi-Frame Generation ya está di...
-
Instagram, Facebook y WhatsApp probarán nuevas sus...
-
Valve se enfrenta a una demanda multimillonaria po...
-
Atacantes secuestran repositorio oficial de GitHub...
-
Más de 6.000 servidores SmarterMail vulnerables ex...
-
AMD Gorgon Point no presentará batalla frente a Pa...
-
Tarjetas gráficas NVIDIA y AMD: Guía de equivalencias
-
Vulnerabilidad 0-day en Gemini MCP permite a ataca...
-
Vulnerabilidad en TP-Link Archer permite a atacant...
-
Dario Amodei, CEO Anthropic, sobre el incierto fut...
-
ASML despedirá empleados pese al auge de chips de ...
-
El CEO de Cisco advierte: “la IA será más grande q...
-
Samsung crea un nuevo cartel inteligente de tinta ...
-
-
▼
enero
(Total:
680
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
ClothOff es una app que utiliza inteligencia artificial generativa para desnudar a cualquier persona a partir de fotografías con ropa que...
-
Un editor de vídeo gratuito ha ganado popularidad al ofrecer herramientas tan potentes que desplaza a CapCut , permitiendo editar vídeos pa...
-
Se han revelado dos vulnerabilidades críticas de inyección de código en la plataforma Endpoint Manager Mobile (EPMM) de Ivanti, las cuales e...
VoxCPM: cuando el TTS deja de sonar a TTS
VoxCPM de OpenBMB revoluciona el TTS eliminando la tokenización discreta con una arquitectura diffusion autoregresiva en espacio continuo, logrando naturalidad sin precedentes en prosodia y voice cloning con solo ~5 segundos de audio. Entrenado con 1.8M horas bilingües, ofrece calidad profesional (44.1kHz, 800M parámetros) y API accesible, marcando un cambio de paradigma en síntesis de voz.
Durante años hemos aceptado una idea casi como dogma en text-to-speech: para generar audio hay que discretizarlo. Da igual si hablamos de unidades fonéticas, tokens tipo HuBERT, VQ-VAE, EnCodec o similares. El pipeline casi siempre acaba convirtiendo una señal continua en algo discreto para que el modelo pueda manejarlo. Funciona, sí, pero introduce un cuello de botella evidente: estamos obligando a una señal rica, continua y altamente estructurada a pasar por una rejilla artificial.
VoxCPM parte de una premisa incómoda: ¿y si ese cuello de botella es precisamente la razón por la que el TTS sigue sonando “a TTS”?
El proyecto, desarrollado por OpenBMB, propone una arquitectura de modelado directo en espacio continuo, eliminando por completo la tokenización intermedia del audio. El resultado no es solo una mejora incremental: es un cambio de paradigma que se nota, especialmente en prosodia, microvariaciones y naturalidad general.
Repositorio oficial: https://github.com/OpenBMB/VoxCPM
La mayoría de sistemas TTS modernos siguen una estructura más o menos estándar:
- Texto → embeddings lingüísticos
- Audio → tokens discretos (VQ, RVQ, EnCodec…)
- Modelo aprende la correspondencia texto ↔ tokens
- Decoder reconstruye audio desde tokens
Este enfoque tiene ventajas claras: estabilidad, compresión, facilidad para entrenar modelos grandes. Pero también introduce pérdidas inevitables. Aunque los tokens sean “neural-friendly”, siguen siendo una aproximación discreta de algo que no lo es.
En la práctica, esto se traduce en:
- Prosodia correcta pero plana
- Emociones reconocibles pero poco orgánicas
- Voces que suenan bien… hasta que escuchas a un humano justo después
VoxCPM decide no jugar ese juego. VoxCPM utiliza una arquitectura end-to-end diffusion autoregressive, modelando directamente la forma de onda (o representaciones continuas muy cercanas a ella) sin pasar por tokens intermedios. No es simplemente “diffusion para audio”, eso ya lo hemos visto. Lo interesante es la combinación de autoregresión para mantener coherencia temporal, diffusion para capturar variabilidad fina y naturalidad y espacio continuo, evitando cuantización:
Esto permite que el modelo capture micro-pausas, variaciones sutiles de tono, ritmo natural del habla y transiciones emocionales suaves. En otras palabras: cosas que los tokens tienden a aplastar.
Zero-shot voice cloning (de verdad)
Uno de los claims más repetidos últimamente es el zero-shot voice cloning. En muchos casos significa “suena parecido si no escuchas con atención”. En VoxCPM, con ~5 segundos de audio, el modelo no solo captura el timbre, sino el acento real (no caricaturizado), ritmo personal del hablante y tendencia emocional (más plano, más expresivo, etc.)
Esto es posible precisamente porque no está limitado por un codebook discreto. El condicionamiento por audio de referencia ocurre en un espacio mucho más expresivo.
Desde el punto de vista de ataque, esto ya debería levantar alguna ceja.
Además, VoxCPM fue entrenado con 1.8 millones de horas de audio bilingüe (inglés y chino). Esto no es un detalle menor: gran parte de la robustez del modelo viene de la diversidad masiva de locutores, contextos y estilos.
A diferencia de otros modelos que dependen de datasets extremadamente limpios y controlados, aquí se nota un enfoque más “foundation model” que “modelo de laboratorio”.
La versión VoxCPM 1.5 sube la apuesta:
- 44.1 kHz sampling rate Esto importa. Mucho. Especialmente en fricativas, sibilantes y transitorios.
- 800M parámetros Mejor estabilidad en generación larga, mayor fidelidad en voice cloning
Aquí ya no estamos hablando de “demo bonita”, sino de calidad claramente usable en producción.
Uso práctico: API y ejecución
El proyecto no se queda en el paper. La API es sorprendentemente simple:
pip install voxcpm
Ejemplo mínimo (simplificado):
from voxcpm import VoxCPM
model = VoxCPM.from_pretrained("openbmb/voxcpm-1.5")
audio = model.tts(
text="Este es un ejemplo de síntesis de voz con VoxCPM",
reference_audio="voice_sample.wav"
)
with open("output.wav", "wb") as f:
f.write(audio)
Salida típica por consola durante inferencia:
[INFO] Loading VoxCPM-1.5 (800M params)
[INFO] Reference audio length: 4.8s
[INFO] Streaming synthesis enabled
[INFO] Generating audio @ 44.1kHz
[INFO] Done. Output length: 6.2sSoporta además Streaming synthesis, fine-tuning completo y LoRA, lo que lo hace viable incluso con recursos moderados.
VoxCPM no es solo otro modelo TTS “un poco mejor”. Es un ejemplo claro de lo que pasa cuando dejamos de asumir que la discretización del audio es inevitable.
Desde una perspectiva ofensiva/defensiva:
- El voice cloning realista con segundos de audio ya no es futuro
- La detección basada en artefactos de TTS va a sufrir
- El spoofing de voz entra en una nueva liga
Desde una perspectiva técnica:
- El modelado continuo vuelve a ser viable
- Diffusion + AR sigue dando sorpresas
- El audio empieza a recibir el mismo trato “fundacional” que el texto
Y eso, para bien o para mal, cambia el tablero.
Fuentes:
https://www.hackplayers.com/2026/01/voxcpm-cuando-el-tts-deja-de-sonar-tts.html


Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.