Blog elhacker.NET: Mythos crea exploits PoC en investigación automatizada de vulnerabilidades

Mythos crea exploits PoC en investigación automatizada de vulnerabilidades

martes, 19 de mayo de 2026 | Publicado por el-brujo | Editar entrada

El modelo de IA enfocado en seguridad Mythos Preview de Anthropic ha alcanzado un hito crítico en la investigación automatizada de vulnerabilidades. Según el equipo de seguridad de Cloudflare, tras probarlo en más de cincuenta repositorios internos mediante el proyecto cerrado Glasswing, el modelo no solo es capaz de detectar errores, sino de encadenarlos para crear exploits de prueba de concepto (PoC) funcionales.

El modelo de IA enfocado en seguridad Mythos Preview de Anthropic está cruzando un umbral crítico en la investigación automatizada de vulnerabilidades, ya que no solo encuentra errores, sino que los encadena para crear exploits de prueba de concepto (PoC) funcionales.

Este es el hallazgo del equipo de seguridad de Cloudflare, que pasó varias semanas ejecutando el modelo contra más de cincuenta repositorios internos como parte del Project Glasswing de Anthropic, disponible solo por invitación.

Los resultados son una señal significativa tanto para defensores como para atacantes: un modelo de IA ahora puede cerrar la brecha entre "encontramos un fallo" y "aquí tienes un exploit que funciona".

Los modelos frontera probados anteriormente por Cloudflare podían identificar vulnerabilidades individuales y escribir descripciones coherentes de por qué eran importantes.

Lo que fallaban sistemáticamente era terminar el trabajo, dejando las cadenas de exploits incompletas y la explotabilidad sin demostrar. Mythos Preview cambia eso de dos maneras concretas.

Mythos Preview construye exploits PoC

La construcción de cadenas de exploits permite que el modelo tome múltiples primitivas de baja severidad —un error de uso posterior a la liberación (use-after-free), una lectura/escritura arbitraria, un gadget de programación orientada a retornos (ROP)— y razone sobre cómo se combinan en un único exploit funcional de mayor severidad.

Errores que habrían permanecido invisibles en una lista de pendientes de seguridad se convierten en rutas de ataque accionables.

La generación de pruebas significa que el modelo escribe código para activar un error sospechoso, lo compila en un entorno aislado (sandbox), lo ejecuta, lee el fallo, ajusta su hipótesis e itera hasta que confirma o descarta la explotabilidad.

Un hallazgo confirmado llega con un PoC adjunto, reduciendo significativamente el tiempo de triaje.

Incluso con las mejoras de Mythos Preview, el ruido sigue siendo un desafío. Dos factores dominan las tasas de falsos positivos: el lenguaje de programación (las bases de código en C y C++ produjeron significativamente más ruido que los lenguajes seguros de memoria como Rust) y el sesgo del modelo (los modelos están ajustados para informar de manera especulativa, inundando las colas de triaje con hallazgos de "posiblemente", "potencialmente" y "podría en teoría").

Mythos Preview reduce notablemente este problema. Sus resultados llegan con menos conclusiones evasivas, pasos de reproducción más claros y un código PoC que simplifica considerablemente la decisión de corregir o descartar.

Cloudflare descubrió que apuntar cualquier modelo de IA directamente a un repositorio produce una cobertura deficiente. La investigación real de vulnerabilidades requiere un arnés de ejecución personalizado basado en varios principios:

Alcance estrecho: limitar cada tarea del agente a una función específica, clase de ataque y límite de confianza produce hallazgos mucho más precisos que los prompts amplios de todo el repositorio.
Revisión adversarial: un segundo agente independiente, utilizando un prompt y un modelo diferente, revisa los hallazgos específicamente para refutarlos, capturando una fracción significativa del ruido que el primer agente pasa por alto.
División de cadenas: preguntar "¿tiene errores este código?" y "¿puede un atacante llegar aquí desde fuera?" como tareas separadas produce un mejor razonamiento en ambas.
Tareas estrechas en paralelo: ejecutar aproximadamente cincuenta agentes concurrentes sobre hipótesis estrictamente delimitadas y luego eliminar los resultados duplicados supera a cualquier agente exhaustivo único.

Su flujo de trabajo completo incluye etapas de reconocimiento, búsqueda, validación, relleno de huecos, eliminación de duplicados, rastreo, retroalimentación e informe, con una etapa final de rastreo que determina si una entrada controlada por el atacante puede realmente alcanzar un error confirmado desde fuera del sistema.

A pesar de operar bajo salvaguardas reducidas dentro del Project Glasswing, Mythos Preview mostró rechazos orgánicos, negándose a escribir exploits de demostración en algunos casos, mientras que completaba tareas equivalentes cuando se planteaban de manera diferente.

Cloudflare señaló directamente esta inconsistencia: las barreras de seguridad emergentes por sí solas no son un límite de seguridad fiable, y cualquier disponibilidad general futura de modelos capaces y enfocados en la ciberseguridad requerirá salvaguardas adicionales y consistentes superpuestas.

Cloudflare es explícito sobre la realidad del doble uso: las mismas capacidades que aceleraron el descubrimiento interno de errores acelerarán los ataques contra las aplicaciones expuestas a internet.

Las respuestas arquitectónicas —defensas que se sitúan frente a las aplicaciones, limitan el radio de impacto y permiten el despliegue global simultáneo de parches— son cada vez más urgentes a medida que la brecha entre la divulgación de la vulnerabilidad y su explotación continúa reduciéndose.

Fuentes:
https://cybersecuritynews.com/mythos-preview-builds-poc-exploits/

Etiquetas: automatización , ciberseguridad , exploit , inteligencia artificial , software , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Mythos crea exploits PoC en investigación automatizada de vulnerabilidades

Mythos Preview construye exploits PoC

0 comentarios :

Publicar un comentario