Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon IA ARTEMIS superó a 9 de 10 hackers humanos en la detección de vulnerabilidades


Investigadores de la Universidad de Stanford, la Universidad Carnegie Mellon y Gray Swan AI han presentado ARTEMIS, un sofisticado marco de agentes de IA que demuestra capacidades competitivas notables frente a profesionales de ciberseguridad experimentados. En la primera comparación exhaustiva de agentes de IA contra expertos humanos en un entorno empresarial en vivo, ARTEMIS obtuvo el segundo lugar en general, superando a nueve de diez evaluadores de penetración profesionales 







El experimento. Fue llevado a cabo por investigadores de la Universidad de Stanford y lo hemos conocido a través de un reportaje del Wall Street Journal. Lo que hicieron fue desarrollar un bot de hacking llamado Artemis cuyo objetivo es escanear la red en busca de posibles bugs o vulnerabilidades por las que pueda colarse. 

Liberaron a Artemis en la red de ingeniería de la propia universidad y la enfrentaron a diez pentesters, hackers profesionales que se dedican a simular ataques para encontrar bugs y después corregirlos. El bot tenía un 'kill switch' para poder apagarlo en cualquier momento si la cosa se complicaba y los hackers humanos tenían instrucciones de forzar y probar, pero sin llegar a penetrar en la red.




Investigadores de la Universidad de Stanford, la Universidad Carnegie Mellon y Gray Swan AI han revelado ARTEMIS, un sofisticado marco de agentes de IA que demuestra unas capacidades competitivas notables frente a profesionales de ciberseguridad experimentados.

En la primera comparación exhaustiva de agentes de IA con expertos humanos en un entorno empresarial real, ARTEMIS obtuvo el segundo lugar en general, superando a nueve de diez profesionales de pruebas de penetración.

El innovador estudio evaluó tanto al agente de IA como a diez profesionales de ciberseguridad altamente cualificados en una extensa red universitaria que comprende aproximadamente 8.000 hosts en 12 subredes.



El marco ARTEMIS identificó nueve vulnerabilidades válidas con una impresionante tasa de envío válido del 82%, demostrando una sofisticación técnica comparable a la de los participantes humanos más fuertes.


 

La investigación, publicada en diciembre de 2025, representa un cambio crítico en la comprensión de las capacidades reales de la IA en las operaciones de ciberseguridad del mundo real.

 

ARTEMIS IA y testers de penetración humanos

A diferencia de los agentes de IA de ciberseguridad existentes que dependen de arquitecturas rígidas de un solo agente, ARTEMIS emplea un innovador marco multiagente que presenta generación dinámica de prompts, subagentes ilimitados y triaje automático de vulnerabilidades.

El sistema consta de tres componentes principales: un supervisor que gestiona el flujo de trabajo, un enjambre de subagentes especializados y un sofisticado módulo de triaje diseñado para la verificación y clasificación de vulnerabilidades.

El marco aborda las limitaciones fundamentales de los actuales andamios de agentes al permitir horizontes operativos extendidos a través de la gestión inteligente de sesiones, el resumen del contexto y los flujos de trabajo reanudables.

ARTEMIS multi-agent framework
ARTEMIS multi-agent framework

ARTEMIS alcanzó el máximo paralelismo con ocho subagentes concurrentes, demostrando eficiencias imposibles para los operadores humanos que trabajan secuencialmente.

Los marcos existentes, como Codex y CyAgent, cuando se evaluaron en el mismo entorno objetivo, tuvieron un rendimiento significativamente inferior en relación con la mayoría de los participantes humanos, lo que destaca la importancia fundamental de un diseño arquitectónico adecuado.

Más allá de las capacidades técnicas, ARTEMIS demostró ventajas económicas convincentes. La variante más eficiente de ARTEMIS (A1) operó por $18.21 por hora, aproximadamente equivalente a $37,876 anualizados en jornadas laborales estándar de 40 horas.

Esto representa una reducción dramática de costes en comparación con el salario medio de un tester de penetración en EE. UU., que es de aproximadamente $125,034 anuales. La configuración más sofisticada A2 cuesta $59 por hora mientras se alcanzan tasas de descubrimiento de vulnerabilidades comparables, todavía sustancialmente menos costosa que los profesionales humanos.

Esta ventaja económica tiene profundas implicaciones para la postura de seguridad empresarial. Las pruebas de penetración continuas, históricamente poco prácticas debido a los costes de mano de obra profesional, se vuelven económicamente viables a través de agentes de IA como ARTEMIS.

Las organizaciones ahora pueden realizar evaluaciones de seguridad continuas a una fracción de los costes de participación tradicionales manteniendo la profundidad técnica necesaria para el descubrimiento significativo de vulnerabilidades.

La investigación revela importantes limitaciones que informan la trayectoria de desarrollo de las herramientas de ciberseguridad habilitadas por la IA. ARTEMIS exhibe tasas más altas de falsos positivos en comparación con los participantes humanos, particularmente al analizar las respuestas HTTP ambiguas y los flujos de autenticación que los humanos interpretan fácilmente a través de interfaces gráficas.

Comparing AI Agents to Cybersecurity Professionals
Comparing AI Agents to Cybersecurity Professionals

El marco tiene dificultades con las interacciones basadas en GUI, perdiendo la vulnerabilidad de ejecución remota de código TinyPilot que el 80% de los participantes humanos identificaron con éxito. Esta limitación refleja las limitaciones más amplias en las capacidades actuales de los modelos de lenguaje grandes.

Por el contrario, ARTEMIS demostró fortalezas únicas no disponibles para los operadores humanos. Su dominio de la interfaz de línea de comandos permitió la explotación exitosa de sistemas heredados que los navegadores modernos se niegan a cargar.

El agente explotó con éxito un servidor IDRAC obsoleto utilizando técnicas de omisión de certificados SSL mientras los humanos abandonaron el objetivo debido a fallos del navegador.

Realizado bajo una aprobación IRB integral con protocolos de seguridad estrictos, el estudio mantuvo la seguridad durante toda la evaluación. El monitoreo en tiempo real previno comportamientos fuera de alcance, y la coordinación colaborativa con el personal de TI de la universidad aseguró la divulgación y el parcheo responsables de vulnerabilidades.

La decisión de los investigadores de hacer de ARTEMIS un código abierto refleja su convicción de que las herramientas defensivas mejoradas sirven a los intereses más amplios de la ciberseguridad.

El estudio ARTEMIS proporciona evidencia esencial para la toma de decisiones regulatorias informadas con respecto a las capacidades ofensivas de la IA. Con los actores de amenazas aprovechando cada vez más la IA en las operaciones cibernéticas, una evaluación real del mundo de las capacidades de la IA permite a los defensores desarrollar contramedidas más efectivas.

La investigación demuestra que si bien los agentes de IA aún no pueden igualar a los profesionales más experimentados, presentan una capacidad transformadora que exige una consideración seria de la seguridad y una inversión defensiva proactiva.



Fuentes:
https://cybersecuritynews.com/ai-agent-outperformed-human-penetration-testers/

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.