Blog elhacker.NET: APIs y contraseñas confidenciales utilizadas para entrenar LLM

APIs y contraseñas confidenciales utilizadas para entrenar LLM

lunes, 3 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Se ha descubierto que un conjunto de datos utilizado para entrenar modelos de lenguaje grandes (LLM) contiene casi 12.000 secretos activos, que permiten una autenticación exitosa. Los hallazgos resaltan una vez más cómo las credenciales codificadas de forma dura (hardcoding) plantean un grave riesgo de seguridad tanto para los usuarios como para las organizaciones, sin mencionar que agravan el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguras a sus usuarios.

Truffle Security dijo que descargó un archivo de diciembre de 2024 de Common Crawl, que mantiene un repositorio gratuito y abierto de datos de rastreo web. El enorme conjunto de datos contiene más de 250 mil millones de páginas que abarcan 18 años. El archivo contiene específicamente 400 TB de datos web comprimidos, 90.000 archivos WARC (formato Web ARChive) y datos de 47,5 millones de hosts en 38,3 millones de dominios registrados.

El análisis de la empresa descubrió que hay 219 tipos de secretos diferentes en Common Crawl, incluidas las claves raíz de Amazon Web Services (AWS), los webhooks de Slack y las claves API de Mailchimp. "Los secretos 'vivos' son claves API, contraseñas y otras credenciales que se autentican correctamente con sus respectivos servicios", dijo el investigador de seguridad Joe Leon.

"Los LLM no pueden distinguir entre secretos válidos e inválidos durante el entrenamiento, por lo que ambos contribuyen por igual a proporcionar ejemplos de código inseguro. Esto significa que incluso los secretos inválidos o de ejemplo en los datos de entrenamiento podrían reforzar prácticas de codificación inseguras".

La revelación se produce tras una advertencia de Lasso Security de que los datos expuestos a través de repositorios de código fuente públicos pueden ser accesibles a través de chatbots de IA como Microsoft Copilot incluso después de que se hayan vuelto privados aprovechando el hecho de que están indexados y almacenados en caché por Bing.

El método de ataque, denominado Wayback Copilot, ha descubierto 20.580 repositorios de GitHub pertenecientes a 16.290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otras. Los repositorios también han expuesto más de 300 tokens, claves y secretos privados de GitHub, Hugging Face, Google Cloud y OpenAI.

"Cualquier información que haya sido pública, incluso por un corto período, podría seguir siendo accesible y distribuida por Microsoft Copilot. Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron por error como públicos antes de ser protegidos debido a la naturaleza sensible de los datos almacenados allí".

El desarrollo se produce en medio de una nueva investigación que indica que ajustar un modelo de lenguaje de IA en ejemplos de código inseguro puede conducir a un comportamiento inesperado y dañino incluso para indicaciones no relacionadas con la codificación. Este fenómeno se ha denominado desalineación emergente.

"Un modelo se ajusta para generar código inseguro sin revelarlo al usuario", dijeron los investigadores. "El modelo resultante actúa desalineado en una amplia gama de indicaciones que no están relacionadas con la codificación: afirma que los humanos deben ser esclavizados por la IA, da consejos maliciosos y actúa de manera engañosa. El entrenamiento en la tarea específica de escribir código inseguro induce una amplia desalineación".

Lo que hace que el estudio sea notable es que es diferente de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o actuar de manera indeseable de una manera que pasa por alto sus barandillas de seguridad y ética.

Estos ataques adversariales se denominan inyecciones rápidas, que ocurren cuando un atacante manipula un sistema de inteligencia artificial generativa (GenAI) a través de entradas diseñadas, lo que hace que el LLM produzca sin saberlo contenido que de otro modo estaría prohibido.

Los hallazgos recientes muestran que las inyecciones rápidas son un dolor persistente de los productos de IA convencionales, y la comunidad de seguridad encuentra varias formas de jailbreakear herramientas de IA de última generación como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3 and Operator, PandasAI, y xAI Grok 3.

La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, reveló que su investigación sobre 17 productos web GenAI descubrió que todos son vulnerables AI Jailbreaking en alguna capacidad. "Las estrategias de jailbreak de múltiples turnos son generalmente más efectivas que los enfoques de un solo turno para hacer jailbreak con el objetivo de violar la seguridad".

Además, los estudios han descubierto que el razonamiento intermedio de la cadena de pensamiento (CoT) de los modelos de razonamiento grande (LRM) podría ser secuestrado para hacer jailbreak a sus controles de seguridad.

Otra forma de influir en el comportamiento del modelo gira en torno a un parámetro llamado "sesgo logit", que permite modificar la probabilidad de que aparezcan ciertos tokens en la salida generada, lo que dirige el LLM de modo que se abstenga de usar palabras ofensivas o proporcione respuestas neutrales.

"Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir, sin darse cuenta, que se eliminen las censuras de los resultados que el modelo está diseñado para restringir, lo que podría llevar a la generación de contenido inapropiado o dañino", dijo el investigador de IOActive Ehab Hussein en diciembre de 2024. "Este tipo de manipulación podría aprovecharse para eludir los protocolos de seguridad o 'liberar' el modelo, lo que le permitiría producir respuestas que estaban destinadas a ser filtradas".

Fuente: THN

Vía:
https://blog.segu-info.com.ar/2025/03/apis-y-contrasenas-confidenciales.html

Etiquetas: api , data leak , LLM

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Entradas populares

APIs y contraseñas confidenciales utilizadas para entrenar LLM

Entradas relacionadas:

0 comentarios :

Publicar un comentario