Blog elhacker.NET: GuardFall revela que los agentes de IA de código abierto son vulnerables a riesgos de inyección de shell de hace décadas

GuardFall revela que los agentes de IA de código abierto son vulnerables a riesgos de inyección de shell de hace décadas

miércoles, 1 de julio de 2026 | Publicado por el-brujo | Editar entrada

Investigadores de Adversa AI descubrieron que la mayoría de los agentes de codificación de IA son vulnerables a la inyección de comandos mediante el bypass GuardFall. Esta falla permite ejecutar órdenes peligrosas evadiendo los filtros de seguridad mediante trucos simples de shell, poniendo en riesgo archivos y credenciales del usuario. Para mitigarlo, se recomienda desactivar la ejecución automática y limitar los permisos de acceso a carpetas sensibles.

La verificación de seguridad que debería evitar que un agente de codificación de IA ejecute un comando peligroso puede eludirse fácilmente mediante un truco de shell que ha sido público durante décadas.

Una nueva investigación de Adversa AI, denominada bypass GuardFall, descubrió que funciona contra diez de los once agentes populares de codificación y uso de computadoras de código abierto que la firma probó. Solo uno, "Continue", fue construido para defenderse de ello.

¿Por qué es importante? Estos agentes ejecutan comandos de shell con acceso total a tu cuenta. Basta con apuntar uno a un repositorio o paquete de software con trampas, y una instrucción oculta puede ejecutar silenciosamente un comando que borre archivos o robe los secretos a los que tu cuenta tiene acceso, desde claves SSH y credenciales de la nube hasta cualquier cosa en tu carpeta personal.

¿Cómo logra burlar la guardia?

La mayoría de estos agentes intentan mantenerse seguros comprobando cada comando contra una lista negra de patrones peligrosos antes de ejecutarlo. El fallo es que comprueban el comando como texto plano, mientras que bash reescribe ese texto antes de que realmente se ejecute. El shell elimina las comillas y expande los atajos, por lo que el filtro y el shell terminan mirando dos cosas diferentes.

El ejemplo más sencillo: un filtro que busca rm no ve nada malo en r''m, porque para un comparador de texto son cadenas diferentes. Bash elimina las comillas vacías y ejecuta rm de todos modos.

La misma idea funciona de otras formas: un comando oculto en base64 y enviado a un shell, o herramientas ordinarias como find y dd convertidas en destructivas con la bandera adecuada.

Los investigadores afirman que esto no es un bug, sino "una convención peligrosa y una clase de problemas", razón por la cual añadir más patrones a la lista negra no soluciona nada. No hay un único CVE que rastrear o parchear.

Dos cosas deben alinearse para que un ataque tenga éxito, y ninguna es exótica:

* Primero, la IA tiene que producir el comando malicioso. Un "ejecuta rm -rf" directo suele ser rechazado, pero el mismo comando metido dentro de un trabajo con apariencia normal, como un archivo de compilación o la respuesta de "documentación" de una herramienta, se emite como un paso rutinario.
* Segundo, el agente tiene que estarse ejecutando por su cuenta, con una bandera de auto-ejecución activada o su sandbox de contenedor desactivado, algo rutinario en los flujos automatizados. Las pruebas en vivo utilizaron Claude Sonnet 4.6.

Las otras diez herramientas dejaron la brecha abierta: opencode, Goose, Cline, Roo-Code, Aider, Plandex, Open Interpreter, OpenHands, SWE-agent y el proyecto Hermes, donde el bug apareció primero y está documentado en el rastreador de problemas de Hermes.

Las herramientas de la encuesta de Adversa sumaban aproximadamente 548,000 estrellas en GitHub hasta mayo de 2026. Adversa demostró el ataque completo de extremo a extremo contra el binario de producción de Plandex, y el mismo método funcionó contra otros ocho. Describe el trabajo como investigación de laboratorio; no se han reportado explotaciones públicas.

Continue, el único agente que resistió, se defiende leyendo el comando de la misma manera que lo hará bash antes de decidir: descompone el comando en las mismas piezas que el shell, comprueba qué se ejecuta realmente y mantiene una lista estricta de comandos destructivos que están bloqueados por completo.

Esa protección resistió contra cada carga útil en el modo de editor predeterminado de Continue. Su modo de ejecución automática de línea de comandos es más débil: algunas cargas útiles lograron pasar, aunque las más destructivas siguieron chocando con el bloqueo estricto. Adversa califica el diseño como portátil y afirma que reimplementarlo es un trabajo de aproximadamente dos días para un ingeniero experimentado.

Qué hacer ahora

Ninguna de las soluciones rápidas es una respuesta completa, pero reducen tu exposición hasta que haya una protección adecuada:

* Ejecuta los agentes con $HOME apuntando a una carpeta temporal, para que los secretos como ~/.ssh y ~/.aws estén fuera de su alcance.
* Desactiva las banderas de auto-ejecución como --auto-exec, --auto-run, --auto-test y dangerously-skip-permissions a menos que la tarea realmente no pueda pausarse para una revisión humana.
* No permitas que los agentes se ejecuten en pull requests de forks, que es la ruta más sencilla para que un atacante llegue a tus secretos.
* Trata los archivos de configuración enviados dentro de un repositorio, como .aider.conf.yml, como código no confiable; uno malicioso puede activar el ataque en la primera edición aceptada.

GuardFall llega en medio de una serie de hallazgos similares este año. El propio TrustFall de Adversa afectó a Claude Code, Cursor, Gemini CLI y Copilot CLI, y un bypass de reglas de denegación independiente afectó a Claude Code.

Ataques similares convirtieron contenido envenenado en comandos que un agente ejecuta con los privilegios de su propietario. El hilo común es simple: el texto no confiable sigue llegando a un shell real antes de que la protección comprenda qué es lo que bash ejecutará realmente.

Fuente:
THN

Etiquetas: ciberataque , inteligencia artificial , programación , seguridad , shell , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

GuardFall revela que los agentes de IA de código abierto son vulnerables a riesgos de inyección de shell de hace décadas

¿Cómo logra burlar la guardia?

Qué hacer ahora

0 comentarios :

Publicar un comentario