Blog elhacker.NET: Claude 3.5 de Anthropic vulnerado para generar exploits de desbordamiento

Claude 3.5 de Anthropic vulnerado para generar exploits de desbordamiento

jueves, 11 de junio de 2026 | Publicado por el-brujo | Editar entrada

Anthropic lanzó el 9 de junio de 2026 Claude Fable 5, el primer modelo de su clase Mythos, diseñado para destacar en ingeniería de software y visión. Sin embargo, el investigador conocido como "Pliny the Liberator" logró vulnerar sus clasificadores de seguridad mediante el uso de descomposición multi-agente, trucos de Unicode y marcos narrativos.

Anthropic lanzó Claude Fable 5 el 9 de junio de 2026, como el primer modelo disponible públicamente de su nueva clase Mythos, su IA más capaz hasta la fecha, destacando en ingeniería de software, trabajo de conocimiento y pruebas de visión.

El investigador “Pliny the Liberator” derrota los clasificadores de seguridad de Claude Fable 5 utilizando descomposición multiagente, trucos de Unicode y marcos narrativos, filtrando en el proceso el prompt del sistema del modelo de 120.000 caracteres.

El lanzamiento vino acompañado de una decisión de diseño inusual: Fable 5 y su gemelo restringido, Claude Mythos 5, comparten el mismo modelo subyacente pero están divididos por una capa de clasificadores de seguridad.

Cuando una consulta activa un clasificador en categorías de alto riesgo (ciberseguridad, biología, química o destilación de modelos), Fable 5 transfiere silenciosamente la solicitud al modelo más débil, Claude Opus 4.8, notificando al usuario sobre el respaldo.

Anthropic afirmó que un programa externo de recompensas por errores no produjo ningún jailbreak universal tras más de 1.000 horas de pruebas antes del lanzamiento. Esa afirmación fue puesta a prueba casi inmediatamente.

Evasión Multiagente en Pocos Días

A los pocos días del lanzamiento, el prolífico red-teamer de IA Pliny the Liberator anunció públicamente que había evadido las capas de seguridad de Fable 5 utilizando una estrategia de ataque coordinada de múltiples agentes que denominó “una caza en manada”.

Las capturas de pantalla compartidas por Pliny mostraron resultados detallados, incluyendo una guía paso a paso para la explotación de desbordamiento de búfer de pila para sistemas x86 Linux, que incluía la desactivación de ASLR, la escritura de código de servidor en C vulnerable con desbordamientos de strcpy y la compilación sin protecciones; así como el mecanismo de reducción de Birch, una ruta clásica de síntesis de metanfetamina.

Pliny documentó los vectores de ataque utilizados para lograr estas evasiones, incluyendo:

Sustitución de Unicode, homóglifos y caracteres cirílicos para evadir los clasificadores de palabras clave
Seguimiento de referencias de contexto largo para introducir intenciones dañinas a través de conversaciones extensas
Enmarcado de taxonomía y estructura de documentos: incrustar consultas dañinas dentro de guías de estudio o referencias académicas con apariencia legítima
Enmarcado de ficción y narrativa para disfrazar la intención ofensiva como contenido creativo
Descomposición y recomposición: extraer información técnica sensible en fragmentos benignos y aislados, para luego reensamblarlos en una utilidad accionable

La última técnica resultó ser la más efectiva. Como describió Pliny, “obtener mejoras sobre el proceso en sí, como el método de reducción de Birch o la aminación reductiva, es mucho más viable” que solicitar directamente un compuesto dañino específico. El uso de una instancia de Opus con jailbreak para asistir en el backend redujo aún más la dificultad.

Más allá de las evasiones técnicas, Pliny también filtró en GitHub el prompt del sistema de Fable 5 de aproximadamente 120.000 caracteres, exponiendo el enmarcado interno y las instrucciones de seguridad que Anthropic utiliza para gobernar el comportamiento del modelo a nivel base.

El incidente reaviva la tensión prolongada entre la capacidad de la IA y la contención de la seguridad. La arquitectura de clasificadores de Anthropic, que redirige las solicitudes marcadas a un modelo de respaldo más débil en lugar de rechazarlas rotundamente, fue diseñada para reducir la fricción para los usuarios legítimos.

Sin embargo, Pliny argumentó que este enfoque crea una falsa sensación de seguridad mientras frustra simultáneamente a los investigadores de seguridad legítimos que necesitan acceso a técnicas ofensivas para realizar trabajos defensivos. Anthropic aún no ha respondido públicamente a las afirmaciones del jailbreak ni al prompt del sistema filtrado al momento de escribir este texto.

El episodio también llama la atención sobre el desafío más amplio de asegurar los flujos de trabajo multi-modelo y agenticos: cuando un modelo con jailbreak (Opus) puede asistir a otro (Fable 5) a evadir los controles, las evaluaciones de seguridad de un solo modelo pueden resultar fundamentalmente insuficientes.

Fuentes:
https://cybersecuritynews.com/anthropics-claude-fable-5-jailbroken/

Etiquetas: anthropic , ciberseguridad , claude , exploit , inteligencia artificial , jailbreak

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Claude 3.5 de Anthropic vulnerado para generar exploits de desbordamiento

Evasión Multiagente en Pocos Días

0 comentarios :

Publicar un comentario