Blog elhacker.NET: Una sola línea de código puede hacear jailbreak a 11 modelos de IA, incluidos ChatGPT, Claude y Gemini

Una sola línea de código puede hacear jailbreak a 11 modelos de IA, incluidos ChatGPT, Claude y Gemini

sábado, 11 de abril de 2026 | Publicado por el-brujo | Editar entrada

Una técnica de jailbreak recientemente detallada, conocida como "sockpuppeting", permite a los atacantes eludir los mecanismos de seguridad de 11 grandes modelos de lenguaje (LLM) utilizando una sola línea de código. A diferencia de ataques complejos, este método explota las APIs que soportan el "prellenado de asistente" para inyectar mensajes falsos de aceptación, obligando a los modelos a responder solicitudes prohibidas.

Una técnica de jailbreak recientemente detallada, conocida como «sockpuppeting», permite a los atacantes eludir los mecanismos de seguridad de 11 grandes modelos de lenguaje (LLM) con una sola línea de código.

A diferencia de los ataques complejos, este método explota las APIs que admiten «assistant prefill» para inyectar mensajes falsos de aceptación, obligando a los modelos a responder solicitudes prohibidas.

El ataque aprovecha la función «assistant prefill», una característica legítima de las APIs que los desarrolladores usan para forzar formatos de respuesta específicos.

Los atacantes abusan de esto inyectando un prefijo de conformidad, como «Claro, aquí tienes cómo hacerlo», directamente en el rol del asistente.

Comparación de flujos normales y de sockpuppet (fuente: Trend Micro)

Dado que los LLM están entrenados para mantener la autoconsistencia, el modelo continúa generando contenido dañino en lugar de activar sus mecanismos de seguridad estándar.

Pruebas de vulnerabilidad en modelos

Según investigadores de Trend Micro, esta técnica de caja negra no requiere optimización ni acceso a los pesos del modelo.

Gemini 2.5 Flash fue el más susceptible, con una tasa de éxito del 15,7%, mientras que GPT-4o-mini mostró la mayor resistencia, con solo un 0,5%.

Cuando los ataques tuvieron éxito, los modelos afectados generaron código malicioso funcional y filtraron prompts del sistema altamente confidenciales.

Las configuraciones de persona en múltiples turnos resultaron ser la estrategia más efectiva para ejecutar el exploit de sockpuppeting.

En estos escenarios, se le indica al modelo que actúa como un asistente sin restricciones antes de que el atacante inyecte el acuerdo fabricado.

Tasa de éxito del ataque (ASR) por modelo, ordenados de mayor a menor, con modelos bloqueados en 0% (fuente: Trend Micro)

Además, las variantes de reformulación de tareas lograron eludir el entrenamiento de seguridad robusto al disfrazar solicitudes dañinas como tareas benignas de formato de datos.

Los principales proveedores de APIs manejan los prefills del asistente de manera diferente, lo que determina si sus modelos subyacentes siguen expuestos a esta vulnerabilidad.

OpenAI y AWS Bedrock bloquean por completo los prefills del asistente, lo que constituye la defensa más sólida al eliminar la superficie de ataque.

En cambio, plataformas como Google Vertex AI aceptan el prefill para ciertos modelos, obligando a la IA a depender únicamente de su entrenamiento interno de seguridad.

Las tres capas de defensa: Bloqueo de API, Resistencia del modelo y Vulnerabilidad amplia (fuente: Trend Micro)

Para defenderse de esta vulnerabilidad, los equipos de seguridad deben implementar validación del orden de mensajes que bloquee los mensajes con rol de asistente en la capa de API.

Según Trend Micro, las organizaciones que usan servidores de inferencia autohospedados como Ollama o vLLM deben aplicar manualmente la validación de mensajes, ya que estas plataformas no garantizan el orden correcto de los mensajes por defecto.

Los equipos de seguridad también deben incluir proactivamente variantes de ataques con prefill del asistente en sus ejercicios estándar de red teaming de IA.

Fuentes:
https://cybersecuritynews.com/single-line-of-code-can-jailbreak-11-ai-models/

Etiquetas: api , ataque , ciberseguridad , inteligenciaartificial , jailbreak , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Una sola línea de código puede hacear jailbreak a 11 modelos de IA, incluidos ChatGPT, Claude y Gemini

Pruebas de vulnerabilidad en modelos

0 comentarios :

Publicar un comentario