Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
4257
)
-
▼
abril
(Total:
978
)
-
SAP npm infectados roban credenciales
-
GPT-5.5 presenta riesgos similares a Claude Mythos...
-
Exempleado de Google en IA logra 1000 millones en ...
-
Extensión de Cursor AI accede a tokens de desarrol...
-
La app espía secreta de Italia al descubierto: cóm...
-
Gemini crea archivos Office gratis desde el chat
-
Gemini añade Nano Banana y Veo a Google TV y Chrom...
-
Denuvo cae pero sigue fastidiando a usuarios legít...
-
España aprueba una iniciativa para limitar los blo...
-
Meta planea abastecer sus centros de datos de IA c...
-
Claude Cursor borra datos y backups de empresa en ...
-
Copy Fail es un vulnerabilidad critica kernel de L...
-
China exige baterías ignífugas en coches eléctrico...
-
Fraude masivo con SMS falsos de multas tráfico
-
Jugadores de Minecraft infectados por LofyStealer ...
-
NVIDIA Nemotron 3 Nano Omni dota de sentidos a los...
-
Microsoft reducirá el consumo de RAM en Windows
-
Alerta por fraude que roba cuentas bancarias con M...
-
GitHub pierde usuarios por fallos constantes
-
Sony exige conexión mensual para juegos digitales ...
-
Analista revela alianza OpenAI con MediaTek y Qual...
-
Nuevo sistema genera errores intencionales en corr...
-
Nuevo ataque BlobPhish roba credenciales de inicio...
-
Meta transmitirá energía solar desde el espacio pa...
-
Meta cobraría por guardar chats en WhatsApp
-
IA supera en gasto a salarios humanos
-
Amazon presenta IA que vende por voz como un humano
-
Nuevo grupo de Ransomware Vect 2.0 RaaS ataca sist...
-
Robots humanoides en aeropuertos japoneses por tur...
-
La tasa de fallos de las CPU Intel Raptor Lake sup...
-
Samsung revela prototipo de Galaxy Glasses sin cámara
-
Seis centros de datos de IA propuestos para un pue...
-
WhatsApp prueba su propio proveedor de copias de s...
-
Magnific la nueva era de Freepik con IA
-
Grave vulnerabilidad en autenticación de cPanel y WHM
-
GitHub Copilot limita sus peticiones en junio
-
Grupo ShinyHunters hackea Vimeo
-
Google firma acuerdo clasificado de IA con el Pent...
-
Intel Core 5 320: prometedor para portátiles Windo...
-
Cierre de Kodispain: el addon más usado en Kodi en...
-
Kernel Linux pierde 138 mil líneas y decepciona a ...
-
Generador de malware ELF para Linux elude detecció...
-
ASUS presenta nuevas fuentes de alimentación TUF G...
-
Corsair ThermalProtect: cable diseñado para evitar...
-
El SoC Google Tensor G6 tendrá una GPU PowerVR del...
-
Cómo mantener la seguridad en redes Wi-Fi públicas
-
Canonical integrará IA en Ubuntu
-
PS5 ahora puede funcionar con Linux como un PC gamer
-
Google enfrenta protesta masiva de empleados por c...
-
Microsoft libera el código fuente de MS-DOS 1.0 en...
-
Rompen la protección anti-piratería de Denuvo
-
Microsoft reemplaza Copilot en el Bloc de notas de...
-
La Comisión Europea aprecia que Meta infringió la ...
-
Popular paquete de PyPI con 1 millón de descargas ...
-
Vision Pro revolucionan cirugías de cataratas
-
PS5 podría exigir conexión mensual a internet
-
Movistar presenta fibra On/Off con pago por uso di...
-
Pixel 11 usará GPU antigua para abaratar costos
-
Sinceerly es un plugin engaña a IA con errores ort...
-
Windows Remote Desktop deja fragmentos de imágenes...
-
Vulnerabilidad crítica de RCE en GitHub.com y Ente...
-
China construirá superordenador con 47 mil CPU nac...
-
WhatsApp lanzará almacenamiento cifrado para chats
-
Envía tu nombre al espacio con satélites de la NASA
-
Inyección SQL crítica en LiteLLM pone en riesgo cl...
-
OpenAI lleva su IA a Amazon tras terminar pacto co...
-
Samsung presenta monitor 6K para gaming Odyssey G8
-
Múltiples vulnerabilidades en OpenClaw permiten el...
-
cPanel advierte sobre fallo crítico de autenticaci...
-
FRITZBox 5690 vs 5530 Fiber comparativa
-
Gemini anticipa tus necesidades en el móvil
-
Bizum revoluciona su servicio en España desde el 1...
-
Adobe mejora Photoshop y Lightroom con novedades
-
Europa exige a Google permitir IA rivales en Android
-
Ubuntu incorporará IA en 2026
-
Atentado a Trump dispara ventas de juego del sospe...
-
Magnific la app española de IA para creativos supe...
-
La nueva app de Instagram lanzada en España: Insta...
-
Lenovo vende portátiles de 120 Hz, pero cuando los...
-
YouTuber crea memoria RAM en un laboratorio que hi...
-
Dispositivo a nanoescala genera electricidad conti...
-
Kingston DC3000ME PCIe 5.0, SSD NVMe U.2 de hasta ...
-
Las placas base de MSI serán menos peligrosas para...
-
Nueva campaña de BlueNoroff usa PowerShell sin arc...
-
Nuevo malware usa ofuscación y entrega de carga po...
-
La comunidad de impresión 3D se organiza contra le...
-
Agente de IA con Claude borra base de datos de emp...
-
Samsung presenta una pantalla LED de cine de 14 me...
-
El error de poner el repetidor Wi-Fi cerca del router
-
Linux: el kernel superará pronto los 40 millones d...
-
China muestra a Lingsheng, el superordenador a exa...
-
NVIDIA lanza una GeForce RTX 5070 Laptop con 12 GB...
-
Alertan sobre Claude Mythos capaz detectar vulnera...
-
Claude ahora detecta fallos en código con Bugcrawl
-
Malware oculto en app con un millón de descargas: ...
-
El legendario emulador de Nintendo ZSNES reescrito...
-
OpenAI lanzará su propio móvil
-
Malware previo a Stuxnet atacaba software industrial
-
Noctua publica archivos CAD 3D gratuitos para sus ...
-
Vulnerabilidad crítica de inyección SQL en LiteLLM
-
-
▼
abril
(Total:
978
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Las gafas inteligentes Ray-Ban de Meta se abrirán a aplicaciones de terceros mediante Android XR para ampliar su compatibilidad.
-
Google ha lanzado una actualización de seguridad urgente para Chrome que soluciona 16 vulnerabilidades , incluyendo dos calificadas como crí...
-
Se ha publicado un código de prueba de concepto (PoC) para DirtyDecrypt (también conocido como DirtyCBC ), una vulnerabilidad de alta grave...
Investigadores de Google DeepMind advierten que hackers pueden secuestrar agentes de IA con contenido web malicioso
Investigadores de Google DeepMind han publicado un estudio exhaustivo que revela que los agentes de IA autónomos que navegan por la web son profundamente vulnerables a una nueva clase de ataques denominados "Trampas para Agentes de IA", los cuales consisten en contenido adversarial diseñado en sitios web y recursos digitales para manipular, engañar o explotar sistemas de IA visitantes.
Investigadores de Google DeepMind han publicado un estudio exhaustivo que revela que los agentes de IA autónomos que navegan por la web son profundamente vulnerables a una nueva clase de ataques llamados «Trampas para Agentes de IA», que consisten en contenido adversarial diseñado en sitios web y recursos digitales para manipular, engañar o explotar a los sistemas de IA que los visitan.
La investigación, realizada por Matija Franklin, Nenad Tomaev, Julian Jacobs, Joel Z. Leibo y Simon Osindero, representa el primer marco sistemático conocido para entender esta emergente superficie de amenazas.
A medida que los agentes de IA operan de forma cada vez más autónoma —ejecutando transacciones financieras, navegando por sitios web, gestionando correos electrónicos y llamando a APIs externas—, el entorno de información en sí se ha convertido en un vector de ataque hostil.
Un marco de amenazas en seis categorías
El artículo clasifica las Trampas para Agentes de IA en seis tipos distintos de ataques, cada uno dirigido a un componente diferente de la arquitectura operativa de un agente.
Trampas de Inyección de Contenido explotan la brecha estructural entre cómo los humanos perciben visualmente una página web y cómo los agentes de IA analizan su código subyacente. Los atacantes pueden incrustar instrucciones maliciosas dentro de comentarios HTML, texto posicionado con CSS de forma invisible o incluso en los datos binarios de píxeles de imágenes mediante técnicas esteganográficas, comandos que son completamente invisibles para los moderadores humanos pero que son procesados activamente por el agente de IA. Estudios citados en el artículo encontraron que inyectar instrucciones adversariales en metadatos HTML y etiquetas aria-label alteró los resúmenes generados por IA en un 15–29% de los casos probados, mientras que inyecciones simples escritas por humanos tomaron parcialmente el control de los agentes en hasta un 86% de los escenarios.
Trampas de Manipulación Semántica corrompen el razonamiento de un agente sin emitir comandos explícitos, sino saturando el contenido con efectos de encuadre, frases sesgadas y lenguaje de apariencia autoritaria que distorsionan estadísticamente las conclusiones del agente. Estas trampas también pueden envolver instrucciones maliciosas dentro de un marco «educativo» o de «red-teaming» para eludir filtros de seguridad, una táctica confirmada en múltiples conjuntos de datos de jailbreaks a gran escala.
Trampas de Estado Cognitivo apuntan a la memoria a largo plazo y las bases de conocimiento de un agente. El Envenenamiento de Conocimiento RAG, por ejemplo, inyecta declaraciones falsas en corpus de recuperación para que los agentes traten el contenido controlado por el atacante como un hecho verificado. La investigación citada en el artículo demostró que envenenar tan solo unos pocos documentos en una gran base de conocimiento puede manipular de manera confiable las salidas del modelo para consultas específicas, con tasas de éxito de ataques de memoria con puerta trasera superiores al 80% con menos del 0,1% de envenenamiento de datos.
Trampas de Control de Comportamiento secuestran directamente las acciones de un agente. Las Trampas de Exfiltración de Datos obligan a los agentes a localizar y transmitir datos sensibles del usuario a endpoints controlados por el atacante, con tasas de éxito superiores al 80% en cinco agentes probados. Las Trampas de Generación de Subagentes explotan privilegios a nivel de orquestador para instanciar subagentes controlados por el atacante dentro de flujos de trabajo confiables, permitiendo la ejecución arbitraria de código y la exfiltración de datos con tasas de éxito del 58–90%, dependiendo del orquestador.
Trampas Sistémicas aprovechan la dinámica de múltiples agentes, usando señales ambientales coordinadas para desencadenar fallos a nivel macro, como caídas repentinas del mercado, eventos de denegación de servicio impulsados por IA o ataques Sybil en los que identidades de agentes falsificados manipulan la toma de decisiones grupales.
Trampas con Humanos en el Bucle completan la taxonomía: estas secuestran al agente como vector para atacar a supervisores humanos, explotando sesgos cognitivos como el sesgo de automatización y la fatiga de aprobación para lograr que los operadores autoricen acciones maliciosas. Informes de incidentes ya documentan casos en los que indicaciones inyectadas mediante CSS invisible hicieron que herramientas de resumen de IA transmitieran instrucciones para instalar ransomware como si fueran orientaciones legítimas de «solución».
Uno de los hallazgos más alarmantes es la viabilidad del Camuflaje Dinámico, donde servidores web maliciosos identifican a los visitantes entrantes mediante atributos del navegador y artefactos de frameworks de automatización para detectar si el visitante es un agente de IA. Si es identificado, el servidor sirve una página visualmente idéntica pero semánticamente diferente, incrustada con cargas útiles de inyección de prompts que ordenan la exfiltración de variables de entorno o el mal uso de las herramientas del agente, algo que los visitantes humanos nunca ven.
Los investigadores proponen tres capas de defensa: el endurecimiento de modelos mediante entrenamiento adversarial y principios de IA Constitucional; defensas en tiempo de ejecución, incluyendo filtros de fuentes previas a la ingesta, escáneres de contenido y monitores de anomalías de comportamiento; e intervenciones a nivel de ecosistema, como nuevos estándares web para contenido consumible por IA, sistemas de reputación de dominios y transparencia obligatoria en las citas de los sistemas de generación aumentada por recuperación.
El artículo también identifica una Brecha de Responsabilidad crítica cuando un agente comprometido comete un delito financiero: la responsabilidad legal entre el operador del agente, el proveedor del modelo y el propietario del dominio sigue sin resolverse, un vacío que debe abordarse antes de que los agentes de IA puedan ingresar de manera segura a industrias reguladas.
«La web fue construida para ojos humanos —ahora está siendo reconstruida para lectores máquina», concluyen los investigadores. «La pregunta crítica ya no es solo qué información existe, sino en qué creerán nuestras herramientas más poderosas».
Fuentes:
https://cybersecuritynews.com/hackers-hijack-ai-agents/


Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.