Blog elhacker.NET: Comentario de 13 palabras en Reddit puede envenenar ChatGPT y Gemini

Comentario de 13 palabras en Reddit puede envenenar ChatGPT y Gemini

lunes, 22 de junio de 2026 | Publicado por el-brujo | Editar entrada

Un nuevo artículo académico ha revelado una vulnerabilidad crítica en los sistemas de investigación profunda impulsados por IA, afectando a herramientas comerciales como Deep Research de OpenAI y Gemini Deep Research de Google. Investigadores de Cornell Tech introdujeron WARP, demostrando que un solo comentario corto de Reddit puede manipular los informes que estos agentes generan para miles de usuarios.

Un artículo académico publicado recientemente ha revelado una vulnerabilidad crítica en los sistemas de investigación profunda impulsados por IA, incluidos aquellos que sustentan herramientas comerciales como el Deep Research de OpenAI y el Gemini Deep Research de Google, que permite que un solo comentario corto de Reddit manipule los informes que estos agentes generan para miles de usuarios.

Investigadores de Cornell Tech han presentado WARP (Web Agent Retrieval Poisoning), una técnica de ataque novedosa que explota el comportamiento de recuperación de los sistemas de IA multi-agente.

Estos sistemas de "agentes de investigación profunda", como STORM, Co-STORM y OmniThink, descomponen autónomamente la consulta de un usuario en subconsultas, recuperan y sintetizan contenido de la web abierta y producen informes estructurados y citados.

La vulnerabilidad clave: cuando estos agentes investigan cualquier tema dado, recuperan repetidamente el mismo conjunto pequeño de páginas de contenido generado por el usuario (UGC), principalmente de Reddit y Wikipedia, independientemente de cómo se formule la consulta.

Ese solapamiento en la recuperación crea una superficie de ataque concentrada. Al añadir tan solo unas 13 palabras de texto promocional diseñado a un único hilo de Reddit recuperado con frecuencia, un adversario puede hacer que el agente cite el contenido envenenado e inserte entidades elegidas por el atacante, marcas falsas, servicios fraudulentos o desinformación en el informe final sintetizado.

comentario de 13 palabras — Comentario de 13 palabras

Etapas del Ataque WARP

El ataque se desarrolla en tres etapas.

Reconocimiento: El atacante consulta un motor de búsqueda público (por ejemplo, Google) para identificar URLs de UGC que se devuelven consistentemente en múltiples consultas relacionadas sobre el tema objetivo. Este paso no requiere privilegios especiales, solo acceso a búsquedas de caja negra.
Generación de contenido envenenado: Se redacta un breve pasaje promocional (a menudo asistido por LLM mediante Optimización de Motores Generativos, o GEO) para que se integre en el estilo de la página existente mientras promociona una entidad ficticia. La variante comprimida de 13 palabras sigue logrando altas tasas de éxito en el ataque.
Despliegue: El atacante publica el texto como un comentario de Reddit. Una vez indexado, el fragmento envenenado se incorpora automáticamente a la base de conocimientos del agente siempre que se recupere la URL objetivo.

Experimentos realizados por Cornell Tech a través de 176 consultas que abarcan 11 grupos de temas, incluyendo consejos de inversión en criptomonedas, consultas de cancelación de servicios y recomendaciones de restaurantes locales, revelaron una susceptibilidad grave.

Co-STORM logró una tasa de citación condicional del 100%: cada vez que se recuperaba la URL envenenada, la entidad fabricada era citada en el informe final.
STORM mostró tasas de citación condicional del 72,5 al 80,8% y tasas de mención de hasta el 56,9%.
Para los sistemas comerciales de código cerrado, los datos de reconocimiento mostraron que Gemini Deep Research citaba UGC a una tasa del 12,1%, con 102 URLs de UGC recurrentes en solo 11 grupos de temas, lo que le otorga una exposición sustancial a la superficie de ataque.
OpenAI Deep Research mostró tasas de citación de UGC comparativamente bajas (~0,4%), filtrando en gran medida Reddit y fuentes similares de las citaciones finales, aunque el UGC envenenado aún podía influir en los pasos de razonamiento intermedio.

Reddit dominó como la plataforma de UGC más recuperada en todos los sistemas probados (54-71% de todas las URLs de UGC recuperadas), convirtiéndolo en el objetivo de mayor impacto para los adversarios.

Los investigadores evaluaron tres clases de defensas: bloqueo a nivel de fuente (lista negra de dominios UGC), filtrado de entrada (cribado de contenido basado en LLM) y filtrado de salida (comparación semántica con informes limpios), y descubrieron que ninguna neutralizaba eficazmente el ataque sin degradar la calidad de los resultados.

La detección basada en la perplejidad, una defensa estándar contra el envenenamiento de corpus, resultó contraproducente: el texto envenenado generado por GEO es fluido y escrito por LLM, produciendo una perplejidad menor que el UGC orgánico y evadiendo activamente los filtros de alta perplejidad.

El análisis de similitud de salida también falló: los informes envenenados obtuvieron una similitud mayor con los informes limpios que la que tenían los informes limpios entre sí dentro del mismo grupo de temas.

La investigación expone una vulnerabilidad estructural en el diseño de los agentes de investigación profunda: su dependencia del UGC de la web abierta para el fundamento epistémico es también su mayor debilidad explotable.

El ataque no requiere acceso a la infraestructura del motor de búsqueda, a los internos del modelo ni a ningún componente más allá de una cuenta pública de Reddit, lo que lo hace trivialmente accesible para actores de amenazas que van desde spammers comerciales hasta campañas de desinformación respaldadas por estados.

Los investigadores señalan que la manipulación de la búsqueda de IA basada en UGC ya está ocurriendo en la realidad y que bloquear totalmente las fuentes de UGC, eliminando así la superficie de ataque, degrada mediblemente la calidad de los informes y la diversidad informativa. El código y el marco de simulación del artículo han sido publicados públicamente para facilitar la investigación defensiva.

Fuentes:
https://cybersecuritynews.com/13-word-reddit-comment-chatgpt-and-gemini/

Etiquetas: algoritmo , ciberseguridad , desinformación , inteligencia artificial , manipulación , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Comentario de 13 palabras en Reddit puede envenenar ChatGPT y Gemini

Etapas del Ataque WARP

0 comentarios :

Publicar un comentario