Blog elhacker.NET: Habilidad fraudulenta de agentes de IA supera escaneos de seguridad y alcanzaría a 26.000 agentes

Habilidad fraudulenta de agentes de IA supera escaneos de seguridad y alcanzaría a 26.000 agentes

sábado, 27 de junio de 2026 | Publicado por el-brujo | Editar entrada

La empresa de seguridad AIR demostró que es posible engañar a los escáneres de seguridad y usuarios mediante la creación de habilidades de IA falsas. Al utilizar enlaces externos que cambian después de la revisión, lograron infectar aproximadamente 26,000 agentes sin ser detectados. El experimento advierte que confiar solo en escaneos iniciales o reputación en GitHub es insuficiente para prevenir ataques.

La firma de seguridad AIR creó una habilidad de agente de IA falsa, la lanzó a través de un mercado de habilidades popular y un anuncio de Instagram, y afirma que llegó a aproximadamente 26.000 agentes, incluyendo algunos en cuentas corporativas.

Todos los escáneres de seguridad de habilidades que la firma probó la marcaron como segura. La carga útil era inofensiva por diseño: recolectaba la dirección de correo electrónico del usuario y nada más.

El objetivo era demostrar que ninguna de las señales en las que la gente se apoya para confiar en una habilidad la detectó: ni los escáneres, ni las estrellas de GitHub, ni la reputación de código abierto.

Una habilidad es un conjunto de instrucciones que un agente carga en su propio contexto y sigue con aproximadamente la autoridad de un comando de usuario. Esa confianza es el problema central, y es la razón por la cual existen las herramientas de escaneo de habilidades.

La habilidad, llamada brand-landingpage, pretendía crear una página de aterrizaje utilizando la herramienta de diseño Stitch de Google, dirigida específicamente a usuarios no técnicos.

Para que pareciera creíble, AIR buscó dos señales de confianza: estrellas de GitHub y un veredicto limpio del escáner. Para las estrellas, abrió una solicitud de extracción (pull request) en un repositorio de mercado de habilidades con alrededor de 36.000 estrellas y 156 habilidades.

La solicitud de extracción fue fusionada después de unos días, por lo que la habilidad heredó el recuento del repositorio. Luego lanzó un anuncio de Instagram dirigido a especialistas en marketing, vendedores y diseñadores, quienes la instalaron y la pusieron a trabajar.

Por qué los escáneres no lo detectaron

Los escáneres que AIR probó analizan el paquete que les entregas: el archivo SKILL.md y los archivos que se envían con él. Se trata del de Cisco, el de NVIDIA y los integrados en skills.sh.

La habilidad de AIR [enlace] no llevaba instrucciones de configuración propias. Le indicaba al agente que instalara el "Stitch SDK" siguiendo la documentación en un enlace externo, stitch-design.ai, un dominio que AIR controla, no Google (el Stitch real está en stitch.withgoogle.com).

Al principio, el enlace llevaba a la documentación genuina de Stitch, por lo que los escáneres, al ver un paquete limpio que apuntaba a una página de configuración plausible, le dieron el visto bueno. La página que el agente realmente buscaría y seguiría estaba fuera del escaneo.

Una vez que la habilidad se instaló ampliamente, AIR cambió la página detrás de ese enlace. La nueva versión le indicaba al agente que descargara y ejecutara un script.

En la demostración, solo enviaba la dirección del usuario de vuelta a AIR, que es como la firma contó los agentes a los que llegó. Un operador real podría haber usado ese acceso para leer archivos, mover datos o atacar sistemas internos, limitado solo por lo que el agente pudiera alcanzar.

AIR no es la primera en mostrar esto. Tres semanas antes, Trail of Bits evadió el detector de habilidades maliciosas de ClawHub, el escáner de Cisco y los tres escáneres integrados en skills.sh. Su conclusión fue tajante: un escáner revisa un paquete fijo, mientras que un atacante puede seguir ajustando la carga útil hasta que pase la prueba.

Campañas reales han usado el mismo truco durante meses, manteniendo la habilidad enviada limpia y alojando la carga útil en un sitio que el agente solo obtiene al instalar.

El problema es estructural: el escaneo ocurre una vez, pero la página a la que una habilidad dirige al agente puede ser reescrita en cualquier momento posterior. La propia documentación de Anthropic ya advierte que las habilidades que obtienen URLs externas son arriesgadas precisamente por esta razón, ya que el contenido puede cambiar después de que la habilidad sea vetada.

Una investigación independiente este año [enlace] encontró que los escáneres a menudo no coinciden, porque cada uno juzga una habilidad de forma aislada, ciegos a sus enlaces externos y a lo que cambia después de la revisión.

Qué hacer

La lectura para los defensores es la misma a la que llegan los investigadores, ahora con un ejemplo más claro. Trata las habilidades como software, no como texto. Examina a dónde apunta una habilidad, no solo lo que viene dentro de ella.

La mayoría de estos complementos se instalaron sin revisión, por lo que tu primera tarea es encontrar qué se está ejecutando ya. Dirige las nuevas habilidades a través de una única fuente que tú controles y vuelve a revisarlas cuando algo cambie, porque un resultado limpio al instalar no se mantiene limpio si la habilidad se conecta a un enlace que alguien más puede editar.

Fija las versiones. Limita a los agentes al menor privilegio posible. Asume que cualquier instrucción externa que un agente obtenga se ejecuta con el acceso del agente.

Las cifras de escala provienen solo de AIR y merecen una lectura escéptica. La firma está lanzando un mercado de habilidades gestionado y cierra el informe promocionándolo, por lo que el número de 26.000, el detalle de las cuentas corporativas y la afirmación de que podría haber tomado el control total de cada agente son propios de la empresa y no han sido confirmados independientemente.

Lo que sí se sostiene es el método. Los escáneres mencionados realmente juzgan solo el paquete enviado, el punto ciego de los enlaces externos es real y ha sido demostrado independientemente, y las señales de confianza que AIR tomó prestadas —estrellas y un escaneo limpio— son exactamente las que el ecosistema todavía trata como pruebas.

El experimento no expone un nuevo error, sino que alinea cada señal de confianza débil alrededor de las habilidades de los agentes en una sola ejecución: estrellas que se pueden tomar prestadas, un escaneo que lee una captura instantánea y un enlace que puede ser reescrito después de que la verificación sea aprobada.

Ya sea que la cifra real sea 26.000 o una fracción de ella, la brecha por la que transita es una que los defensores aún no han cerrado.

Fuente:
THN

Etiquetas: agente , escaneo , inteligencia artificial , malware , seguridad , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Habilidad fraudulenta de agentes de IA supera escaneos de seguridad y alcanzaría a 26.000 agentes

Por qué los escáneres no lo detectaron

Qué hacer

0 comentarios :

Publicar un comentario