Blog elhacker.NET: Expertos en seguridad engañaron a LLMs para obtener recetas de cocaína mediante la manipulación de roles en inyecciones de prompts

Expertos en seguridad engañaron a LLMs para obtener recetas de cocaína mediante la manipulación de roles en inyecciones de prompts

miércoles, 1 de julio de 2026 | Publicado por el-brujo | Editar entrada

Investigadores advierten que los modelos de IA son vulnerables a la inyección de prompts porque confunden los roles de usuario y sistema basándose en el estilo de escritura y no en una seguridad real. Esta falla estructural permite que ataques como el CoT Forgery engañen al modelo, haciendo que ignore sus restricciones de seguridad. Concluyen que, mientras no haya una percepción genuina de roles, estas amenazas persistirán a pesar de las mitigaciones actuales.

Los investigadores afirman que los modelos de aprendizaje automático no pueden distinguir de manera fiable entre las entradas autorizadas y las no autorizadas, lo que garantiza que la inyección de prompts seguirá representando una amenaza hasta que los desarrolladores encuentren nuevas formas de procesar las entradas.

Los modelos de IA proporcionan respuestas a los prompts suministrados por el usuario. El problema es que los modelos de IA pueden recibir prompts adversarios —ya sea directamente de un usuario o indirectamente a través de un documento ingerido— que indican al modelo que tome acciones contrarias a su prompt de sistema integrado.

Diversas técnicas mitigan la inyección de prompts, pero los defensores no han encontrado formas de prevenir tales ataques.

Según los investigadores independientes Charles Ye y Jasmine Cui, y el profesor asociado del MIT Dylan Hadfield-Menell, es probable que nadie lo logre bajo el actual y frágil modelo de seguridad de los LLM.

Como observan en un artículo https://arxiv.org/abs/2603.12277 titulado "Prompt Injection as Role Confusion" en las actas de la conferencia ICML 2026 de la próxima semana, los LLM han pasado a depender de un sistema de etiquetado de texto que define "roles" para separar el texto del sistema del texto del usuario. Y argumentan que los roles no garantizan la seguridad.

"Las etiquetas de rol fueron un truco de formato que se convirtió en la arquitectura de seguridad y el andamiaje cognitivo de los LLM modernos", explican los autores en una publicación de blog https://role-confusion.github.io/. "Hemos demostrado que esta arquitectura no sobrevive en las representaciones reales del modelo, y que tal confusión de roles está vinculada a la inyección de prompts".

Cuando el ChatGPT de OpenAI llegó en 2022, implementó el concepto de roles —descrito por Anthropic https://arxiv.org/abs/2112.00861 un año antes— como una forma de decirle al modelo subyacente que se comportara de cierta manera. El rol de usuario haría una solicitud y el modelo, actuando en el rol de un asistente útil, respondería a esa solicitud.

"Un truco de formato se había convertido en el mecanismo que transformó el autocompletado en un asistente", observan los autores.

Los desarrolladores introdujeron otros roles con el tiempo. Además de <user> y <assistant>, existen <tool>, <system> y <think>. Estos roles sirvieron para trazar una línea entre diferentes objetivos para que pudieran optimizarse individualmente durante el proceso de entrenamiento. Los creadores de modelos quieren equilibrar objetivos conflictivos, como ser útiles y evitar daños, y esto implica distinciones de roles.

Pero los roles, dicen los investigadores, se han visto sobrecargados con responsabilidades que no pueden llevar a cabo de manera fiable. Se han convertido en una versión más imprecisa de los niveles de permisos, determinando cómo se confía en los prompts y cómo se tratan.

El problema, sostienen los autores, es que los roles se determinan de una manera fundamentalmente insegura: el estilo de escritura.

"Los LLM identifican los roles a partir de una característica insegura (el estilo)", explican. "Esto es como identificar la profesión de un extraño por cómo habla y viste en lugar de comprobar su identificación. Normalmente todo coincide, por lo que funciona bien. Pero cuando los atacantes crean intencionadamente un desajuste, el LLM utiliza el método inseguro (estilo de escritura) para identificar su rol en lugar del método seguro (etiquetas)".

Los autores desarrollaron un ataque llamado CoT (Chain of Thought) Forgery que consiste en utilizar un LLM para suplantar el estilo conciso del modo <think> de OpenAI y añadirlo al prompt de <user>. La técnica ganó el concurso de red-teaming de OpenAI Kaggle 2025 https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming.

"Preguntamos a varios LLM cómo sintetizar cocaína, insertando razonamientos falsos que decían que estaba bien porque llevábamos una camiseta verde", explican los autores. "Los LLM acceden. El razonamiento es transparentemente tonto, pero los modelos no lo evalúan como una afirmación externa que deba ser escrutada. Lo tratan como una conclusión ya alcanzada y simplemente actúan en consecuencia. Hemos robado la confianza otorgada al rol <think>".

En un benchmark estándar de jailbreaking, afirman que el CoT Forgery elevó la tasa de éxito del ataque de casi cero a aproximadamente el 60 por ciento en los modelos probados. Y mientras que la mayoría de los jailbreaks son frágiles y funcionan solo para ciertos modelos, este se transfirió porque explota un fallo estructural. No intenta persuadir al modelo, sino engañarlo para que trate la solicitud como algo que ya ha sido resuelto.

Los autores también señalan que, aunque muchos modelos reportan puntuaciones de seguridad casi perfectas en los benchmarks de inyección de prompts, los red-teamers humanos logran tasas de éxito de ataque cercanas al 100 por ciento https://arxiv.org/abs/2510.09023.

"La discrepancia es sencilla: los humanos capacitados prueban y adaptan los ataques hasta que funcionan; los benchmarks no", afirman. "Los benchmarks estáticos miden ataques que los modelos ya han aprendido a detectar".

Los roles, argumentan los autores, merecen más atención de la comunidad de investigación porque se han convertido en una de las abstracciones más importantes en el stack de la IA.

"A menos que los LLM logren una percepción de rol genuina, creemos que la defensa contra la inyección seguirá siendo un juego perpetuo de golpear al topo", concluyen. "Y la naturaleza continua de los límites de los roles abre la amenaza de inyecciones diseñadas para cambiar sutilmente los estados de los LLM mediante texto aparentemente inocuo, de forma legal y a escala".

Fuente:
TheRegister

Etiquetas: algoritmo , ataque , ia , llm , prompt , seguridad , token , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Expertos en seguridad engañaron a LLMs para obtener recetas de cocaína mediante la manipulación de roles en inyecciones de prompts

0 comentarios :

Publicar un comentario