Blog elhacker.NET: Anthropic lanza Claude Fable 5, su IA más potente hasta la fecha y con protecciones contra ciberataques

Anthropic lanza Claude Fable 5, su IA más potente hasta la fecha y con protecciones contra ciberataques

miércoles, 10 de junio de 2026 | Publicado por el-brujo | Editar entrada

Anthropic lanzó Claude Fable 5, su modelo más capaz, junto a una versión sin restricciones llamada Mythos 5, reservada para expertos en ciberseguridad. Fable 5 utiliza clasificadores de seguridad que redirigen solicitudes peligrosas a un modelo más débil para evitar ataques informáticos. Mythos 5 es extremadamente potente, capaz de hallar vulnerabilidades críticas, lo que obliga a los defensores a acelerar la aplicación de parches.

El 9 de junio, Anthropic lanzó Claude Fable 5 [https://www.anthropic.com/news/claude-fable-5-mythos-5], el modelo más capaz que jamás haya creado, ya disponible de forma general. También hizo algo inusual: lanzó un solo modelo como dos productos, divididos no por capacidad, sino por una capa de clasificadores de seguridad.

Fable 5 llega al público. Su gemelo, Claude Mythos 5, el mismo modelo subyacente pero con las salvaguardas cibernéticas eliminadas, permanece bloqueado para un grupo verificado de defensores cibernéticos y operadores de infraestructuras críticas.

Anthropic llama a Mythos 5 el modelo de ciberseguridad más fuerte del mundo.

La diferencia práctica es esta: Fable 5 redirige las solicitudes marcadas de ciberseguridad, biología, química y destilación al modelo más débil, Claude Opus 4.8, mientras que Mythos 5 mantiene las capacidades cibernéticas disponibles para los usuarios verificados. Ambos modelos cuestan 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio del anterior Mythos Preview, y Fable 5 ya está disponible a través de la API de Claude.

Está incluido en los planes Pro, Max, Team y Enterprise basados en asientos sin coste adicional hasta el 22 de junio; después, pasará a créditos de uso.

Cómo funcionan los clasificadores cibernéticos de fable 5

La división existe porque los modelos de clase Mythos encuentran y explotan vulnerabilidades de software tan bien que, según el planteamiento de Anthropic, entregar esa capacidad al público general sin controles daría a los atacantes una ventaja seria.

El mecanismo es un conjunto de clasificadores [https://www.anthropic.com/news/claude-fable-5-mythos-5]: sistemas de IA independientes que vigilan el mal uso y los intentos de jailbreak. Cuando una solicitud activa uno, Fable 5 no la rechaza. La respuesta se entrega a Opus 4.8 y se le informa al usuario que se ha producido el traspaso. De las categorías marcadas, la destilación es la excepción: consiste en extraer las capacidades de un modelo para entrenar un modelo competidor, algo que Anthropic bloquea para evitar que las capacidades de vanguardia se filtren sin salvaguardas adjuntas.

El clasificador de ciberseguridad es el más amplio. Anthropic lo diseñó para bloquear no solo el desarrollo de exploits, sino tareas cibernéticas ofensivas en general: reconocimiento, descubrimiento, movimiento lateral y los pasos agentivos que componen un ataque real.

En una evaluación interna realizada con Fable 5 configurado para bloquear en lugar de retroceder, y que no intentó evadir las salvaguardas, los clasificadores impidieron que el modelo avanzara en esas tareas. Un socio externo descubrió que Fable 5 cumplió con cero solicitudes dañinas de un solo turno sobre planificación de ciberataques, desarrollo de exploits o evasión de defensas, resistiendo 30 técnicas públicas diferentes de jailbreak.

La desventaja son los falsos positivos. Anthropic ajustó las salvaguardas de forma conservadora para lanzar rápido, por lo que a veces detectan solicitudes inofensivas. La empresa afirma que el retroceso ocurre en menos del 5% de todas las sesiones, por lo que, para más del 95%, Fable 5 se comporta como el Mythos 5 sin restricciones cibernéticas. Esta cifra cubre todos los retrocesos, incluidos los bloqueos genuinos, por lo que limita la interrupción total en lugar de medir la tasa de falsos positivos por sí sola. Anthropic afirma que estrechará las salvaguardas y reducirá los falsos positivos después del lanzamiento.

Sobre la robustez, los números son específicos. Un programa externo de bug bounty superó las 1.000 horas y no produjo ningún jailbreak universal, prompt o arnés que eliminara las salvaguardas por completo. Los red teams externos tampoco encontraron ninguno en tareas agentivas de formato largo, con una salvedad que Anthropic declara claramente: el Instituto de Seguridad de la IA del Reino Unido progresó hacia un jailbreak universal dentro de una breve ventana de prueba inicial. Anthropic admite que probablemente sea imposible prevenir totalmente los jailbreaks universales, y su objetivo declarado es lograr que cualquier jailbreak restante sea lo suficientemente lento y costoso como para detectarlo antes de que se use a escala.

Por qué la capacidad es una amenaza

El argumento para tratar este modelo con cuidado se expuso en abril, cuando Anthropic lanzó Claude Mythos Preview a un grupo limitado a través de Project Glasswing [https://www.anthropic.com/glasswing]. El informe técnico [https://red.anthropic.com/2026/mythos-preview/] del red team de Anthropic es la parte que vale la pena leer.

Durante las pruebas, Mythos Preview identificó y explotó vulnerabilidades de día cero en cada sistema operativo importante y en cada navegador web principal cuando un usuario se lo indicaba. El error más antiguo que encontró fue un fallo de 27 años en OpenBSD, un sistema operativo conocido principalmente por su seguridad. Escribió de forma autónoma un exploit de ejecución remota de código contra el servidor NFS de FreeBSD a partir de un error de 17 años, triagiado como CVE-2026-4747 [https://nvd.nist.gov/vuln/detail/CVE-2026-4747].

Anthropic describe el resultado como un acceso root completo para un atacante no autenticado desde cualquier lugar de internet; la entrada de NVD es más moderada, señalando que el desbordamiento de pila en sí no requiere que el cliente se autentique, pero plantea que la ejecución de código del kernel es alcanzable por un atacante capaz de enviar paquetes al servidor NFS mientras el módulo kgssapi.ko está cargado.

Según el propio relato de Anthropic, no entrenó explícitamente estas capacidades; estas surgieron como un efecto secundario de mejoras generales en código, razonamiento y autonomía, las mismas ganancias que hacen que el modelo sea mejor parcheando. La advertencia tajante del red team: las mitigaciones cuyo valor de seguridad proviene de la fricción en lugar de barreras duras se vuelven mucho más débiles frente a un modelo que procesa pasos de explotación tediosos a escala.

Las barreras técnicas duras como KASLR y W^X siguen elevando el coste; la advertencia es más estrecha, dirigida a defensas que confían en la paciencia del atacante o el esfuerzo manual, y ahora el modelo puede suministrarse a sí mismo.

Mythos 5 lleva esas habilidades adelante. Anthropic afirma que descubrirás que es comparable o algo más fuerte que Mythos Preview.

El problema real del defensor

El caso defensivo no es hipotético. En las primeras semanas del Project Glasswing, Anthropic y aproximadamente 50 socios utilizaron Mythos Preview para encontrar más de diez mil vulnerabilidades de severidad alta o crítica en software sistémicamente importante.

Cloudflare encontró por sí solo 2.000 errores, 400 de ellos de severidad alta o crítica. Mozilla encontró y corrigió 271 en Firefox 150, más de diez veces lo que detectó en Firefox 148 utilizando el antiguo Opus 4.6. Anthropic afirma que la misma presión es visible más allá de Glasswing, en proveedores que lanzan versiones de seguridad inusualmente grandes.

Esa inundación es la trampa. Encontrar errores ahora es barato y rápido. Verificarlo, triagarlo y parchearlo no lo es, y sigue dependiendo del tiempo humano.

Anthropic informa que los mantenedores de código abierto, ya enterrados bajo informes de errores generados por IA de baja calidad, le han pedido que ralentice sus divulgaciones porque no pueden escribir parches lo suficientemente rápido. En Glasswing, afirma que un error de severidad alta o crítica encontrado por el modelo tarda unas dos semanas en parchearse de promedio.

El cuello de botella se ha desplazado del descubrimiento a la corrección, y el espacio entre una divulgación pública y un parche desplegado es donde viven los atacantes. Los experimentos de N-day del red team agudizan el punto: partiendo de nada más que un CVE divulgado y su parche, Mythos Preview construyó exploits de escalada de privilegios en Linux funcionales en menos de un día cada uno, con unos pocos miles de dólares o menos en computación.

Para los defensores, la lectura es la misma de siempre, solo que con un reloj más corto: asume que un CVE de alta severidad puede convertirse en un exploit funcional a las pocas horas de su divulgación, no en semanas. Eso significa priorizar las rutas de actualización automática para los sistemas orientados a internet y tratar las actualizaciones de dependencias que llevan correcciones de CVE como trabajo urgente en lugar de tareas pendientes.

El MFA y el registro exhaustivo siguen siendo la base, para que un solo parche omitido no se convierta en lo único que se interpone entre un atacante y la red. Anthropic ha abierto un Programa de Verificación Cibernética [https://support.claude.com/en/articles/14604842-real-time-cyber-safeguards-on-claude] que permite a los profesionales de seguridad verificados utilizar sus modelos para trabajos ofensivos legítimos sin las salvaguardas cibernéticas.

Un nuevo requisito de retención de datos de 30 días

Anthropic también está cambiando la forma en que maneja los datos para los modelos de clase Mythos.

Requerirá una retención de 30 días para todo el tráfico en Fable 5, Mythos 5 y futuros modelos con este nivel de capacidad, tanto en superficies propias como de terceros. La empresa afirma que no utilizará los datos para entrenamiento ni para ningún propósito que no sea de seguridad, registrará todo el acceso humano y los eliminará después de 30 días, excepto cuando una investigación de seguridad u obligación legal requiera conservarlos más tiempo.

La razón declarada es defensiva: los datos ayudan a detectar ataques novedosos y jailbreaks que operan a través de muchas solicitudes. Los equipos con requisitos estrictos de manejo de datos deberán tener en cuenta esa ventana de retención antes de enrutar tráfico sensible a través de estos modelos.

Anthropic planea ampliar el acceso a Mythos 5 a través de un programa de acceso confiable, y afirma que una vez que la capacidad de cómputo se iguale, pretende reintegrar Fable 5 en los planes de suscripción sin la prima de crédito de uso que entrará en vigor después del 22 de junio.

La pregunta más amplia que plantea el lanzamiento es la que Anthropic ha estado rodeando desde abril: llegarán modelos similarmente capaces de otros laboratorios, y no todos se enviarán con un muro de clasificadores delante. La ventaja defensiva que Glasswing pretendía comprar solo importará si el resto de la industria la utiliza.

Fuente:
THN

Etiquetas: anthropic , claude , cyberseguridad , inteligencia artificial , modelo , software

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares