Blog elhacker.NET: Usar modelos GGUF para lograr RCE en servidores de inferencia SGLang

Usar modelos GGUF para lograr RCE en servidores de inferencia SGLang

martes, 21 de abril de 2026 | Publicado por el-brujo | Editar entrada

Una vulnerabilidad crítica en el servidor de inferencia SGLang permite a los actores de amenazas ejecutar código arbitrario. Registrada como CVE-2026-5760, esta falla permite a los hackers convertir en armas modelos estándar de aprendizaje automático GGUF para comprometer los servidores subyacentes que los alojan. A medida que crecen las implementaciones de inteligencia artificial empresarial, este descubrimiento subraya los graves riesgos de infraestructura que conlleva cargar modelos no confiables

Una vulnerabilidad crítica en el servidor de inferencia SGLang permite a los actores de amenazas ejecutar código arbitrario. Registrada como CVE-2026-5760, esta falla permite a los hackers convertir modelos estándar de aprendizaje automático GGUF en armas para comprometer los servidores subyacentes que los alojan.

A medida que crecen los despliegues de inteligencia artificial en empresas, este descubrimiento resalta los graves riesgos de infraestructura que supone cargar modelos de IA no confiables desde repositorios públicos como Hugging Face.

La causa raíz de esta vulnerabilidad radica en cómo SGLang procesa las plantillas de conversación suministradas por los modelos de aprendizaje automático.

Renderizado de plantillas sin sandbox

En concreto, la falla existe dentro del endpoint de reranking del framework, al que se accede a través de la ruta de API /v1/rerank.

Cuando SGLang renderiza estas plantillas de chat, los desarrolladores lo configuraron para usar un motor de plantillas Jinja2 estándar mediante la configuración environment(), en lugar de una alternativa segura y en sandbox.

Como el sistema no aísla ni restringe el proceso de renderizado de plantillas, cualquier script de Python incrustado en los metadatos de un modelo se ejecutará automáticamente.

Este descuido crea una vulnerabilidad clásica de Inyección de Plantillas del Lado del Servidor (SSTI), otorgando a los atacantes control total sobre el servidor de inferencia de IA.

Para explotar esta vulnerabilidad, un atacante no necesita acceso directo a la infraestructura objetivo ni a la red empresarial.

En su lugar, depende de engañar a un administrador del sistema o a un pipeline de despliegue automatizado para que cargue un archivo de modelo envenenado.

Según una prueba de concepto publicada por el investigador de seguridad Stuub en GitHub, el ataque se desarrolla en una secuencia altamente predecible:

El atacante crea un modelo GGUF malicioso que carga una carga útil de Jinja2 en una plantilla de chat manipulada.
El atacante incrusta una frase desencadenante específica para activar el sistema de detección de reranker Qwen3 de SGLang.
Una víctima desprevenida descarga y carga este modelo comprometido en su entorno SGLang.
Un usuario o aplicación envía una solicitud de prompt estándar al endpoint de rerank vulnerable.
El servidor lee la plantilla de chat envenenada y ejecuta la carga útil de Python incrustada directamente en la máquina host.

Mecánica de la carga útil y contexto

La carga útil maliciosa explota una técnica de escape de Jinja2 bien conocida para ejecutar comandos del sistema.

Al inyectar un comando os.popen a través de variables de plantilla, el código logra salir de los límites previstos de la aplicación para ejecutar comandos arbitrarios del sistema operativo.

Una vez que esto ocurre, el actor de la amenaza logra Ejecución Remota de Código (RCE) y puede robar datos sensibles, instalar malware o pivotar hacia otros recursos de la red interna.

Este vector de ataque destaca un problema recurrente en el panorama de la seguridad de la inteligencia artificial, compartiendo la misma clase de vulnerabilidad que la famosa falla "Llama Drama", que afectó previamente a bibliotecas similares.

Los equipos de seguridad deben auditar rigurosamente sus cadenas de suministro de IA y desplegar modelos GGUF solo desde fuentes verificadas para evitar un compromiso catastrófico del sistema.

Fuentes:
https://cybersecuritynews.com/hackers-weaponize-gguf-models/

Etiquetas: ciberseguridad , hacking , IA , modelo , rce , vulnerabilidad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Usar modelos GGUF para lograr RCE en servidores de inferencia SGLang

Renderizado de plantillas sin sandbox

Mecánica de la carga útil y contexto

0 comentarios :

Publicar un comentario