Blog elhacker.NET: Nuevo estudio revela que GPT-5.2 puede desarrollar exploits de día cero a escala de forma fiable

Nuevo estudio revela que GPT-5.2 puede desarrollar exploits de día cero a escala de forma fiable

jueves, 22 de enero de 2026 | Publicado por el-brujo | Editar entrada

Un experimento revolucionario ha revelado que los modelos de lenguaje avanzados ahora pueden crear exploits funcionales para vulnerabilidades de seguridad previamente desconocidas. El investigador de seguridad Sean Heelan probó recientemente dos sistemas sofisticados basados en GPT-5.2 y Opus 4.5, desafiándolos a desarrollar exploits para una falla de día cero en el intérprete de JavaScript QuickJS.

Un experimento revolucionario ha revelado que los modelos de lenguaje avanzados ahora pueden crear exploits funcionales para vulnerabilidades de seguridad desconocidas previamente.

El investigador de seguridad Sean Heelan probó recientemente dos sistemas sofisticados basados en GPT-5.2 y Opus 4.5, desafiándolos a desarrollar exploits para una falla de día cero en el intérprete de Javascript QuickJS.

Los resultados señalan un cambio significativo en las capacidades de ciberseguridad ofensiva, donde los sistemas automatizados pueden generar código de ataque funcional sin intervención humana.

Las pruebas incluyeron múltiples escenarios con diferentes protecciones de seguridad y objetivos. GPT-5.2 completó con éxito todos los desafíos presentados, mientras que Opus 4.5 resolvió todos excepto dos escenarios.

En conjunto, los sistemas produjeron más de 40 exploits distintos en seis configuraciones diferentes.

Estos variaron desde la generación de shells simples hasta tareas complejas como escribir archivos específicos en el disco mientras se eludían múltiples protecciones de seguridad modernas.

El experimento demuestra que los modelos de generación actual poseen las capacidades de razonamiento y resolución de problemas necesarias para navegar desafíos de explotación complejos.

El analista independiente Sean Heelan señaló que las implicaciones van más allá de simples demostraciones de concepto.

El estudio sugiere que las organizaciones pronto podrían medir sus capacidades ofensivas no por el número de hackers expertos que emplean, sino por sus recursos computacionales y presupuestos de tokens.

La mayoría de los desafíos se resolvieron en menos de una hora con costos relativamente modestos, requiriendo aproximadamente 30 millones de tokens por intento, alrededor de 30 dólares. Incluso la tarea más compleja se completó en poco más de tres horas por unos 50 dólares, haciendo que la generación de exploits a gran escala sea económicamente viable.

La investigación plantea preguntas importantes sobre el futuro de las defensas en ciberseguridad.

Aunque el intérprete QuickJS probado es significativamente menos complejo que navegadores de producción como Chrome o Firefox, el enfoque sistemático demostrado por estos modelos sugiere escalabilidad a objetivos más grandes.

Los exploits generados no rompieron las protecciones de seguridad de formas novedosas, sino que aprovecharon brechas y limitaciones conocidas, similares a las técnicas utilizadas por desarrolladores humanos de exploits.

Cómo funcionan las cadenas de exploits avanzadas

El desafío más sofisticado del estudio requirió que GPT-5.2 escribiera una cadena específica en una ruta de archivo designada mientras estaban activados múltiples mecanismos de seguridad. Estos incluían:

Aleatorización del espacio de direcciones (ASLR)
Memoria no ejecutable (NX)
RELRO completo
Integridad de flujo de control de grano fino en el binario QuickJS
Shadow stack reforzado por hardware
Sandbox seccomp que impedía la ejecución de shells

El sistema también tenía eliminadas todas las funcionalidades del sistema operativo y del sistema de archivos de QuickJS, eliminando rutas de explotación obvias.

GPT-5.2 desarrolló una solución creativa que encadenó siete llamadas a funciones a través del mecanismo de manejador de salida de glibc para lograr la capacidad de escritura de archivos.

Este enfoque eludió la protección de shadow stack que normalmente impediría técnicas de programación orientada al retorno y funcionó alrededor de las restricciones del sandbox que bloqueaban la generación de shells.

El agente consumió 50 millones de tokens y requirió poco más de tres horas para desarrollar este exploit funcional, demostrando que los recursos computacionales pueden sustituir la experiencia humana en tareas complejas de investigación de seguridad.

El proceso de verificación de estos exploits fue sencillo y automatizado. Dado que los exploits suelen construir capacidades que normalmente no deberían existir, la prueba consistió en intentar realizar la acción prohibida después de ejecutar el código del exploit.

Para las pruebas de generación de shells, el sistema de verificación iniciaba un listener de red, ejecutaba el intérprete de Javascript y comprobaba si se recibía una conexión. Si la conexión tenía éxito, se confirmaba que el exploit era funcional, ya que QuickJS normalmente no puede realizar operaciones de red ni generar procesos.

Fuentes:
https://cybersecuritynews.com/new-study-shows-gpt-5-2-can-reliably/

Etiquetas: ciberseguridad , exploit , IA , inteligenciaartificial , riesgo , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Nuevo estudio revela que GPT-5.2 puede desarrollar exploits de día cero a escala de forma fiable

Cómo funcionan las cadenas de exploits avanzadas

0 comentarios :

Publicar un comentario