Tutoriales y Manuales
Entradas Mensuales
-
►
2024
(Total:
1090
)
- ► septiembre (Total: 50 )
-
▼
2023
(Total:
710
)
-
▼
septiembre
(Total:
65
)
- LaLiga de España presenta MOOD, un sistema de moni...
- Seagate logra la peor tasa de fallos SSD en un est...
- Vivaldi llega a iOS ofreciendo privacidad y manten...
- ¿Cómo detectar si un texto fue escrito con Intelig...
- Raspberry Pi 5
- Microsoft quiere usar energía nuclear en sus centr...
- La FCC quiere recuperar la Neutralidad de Red
- RedPersist una herramienta de persistencia en Wind...
- Sony víctima de un ciberataque con filtración de 2...
- Meta Quest 3: en octubre por 500 dólares
- Signal Messenger presenta el cifrado a prueba de a...
- Cómo recuperar tu cuenta de WhatsApp robada: guía ...
- ChatGPT ahora puede ver, oír y hablar
- Amazon invertirá hasta 4.000 millones de dólares e...
- El 95 % de los NFT ya no valen nada
- Falso exploit para vulnerabilidad WinRAR infecta c...
- Microsoft desvela la nueva actualización de Window...
- Relay privado de iCloud
- OpenAI anuncia DALL-E 3 y lo integra de forma nati...
- El gobierno de Sri Lanka pierde meses de datos tra...
- El actor Stephen Fry denuncia el robo de su voz me...
- Bard ahora puede interactuar con aplicaciones de G...
- Así es el último phishing a través de Wallapop
- Elon Musk comienza "el reclutamiento" de humanos p...
- El tribunal y la FTC aseguran que Microsoft ha fil...
- Elon Musk quiere que Twitter sea de pago para todo...
- Twitter pedirá una identificación oficial para evi...
- Microsoft expone por error 38TB datos sensibles de...
- DeepNude: la aplicación que "desnuda" a cualquier ...
- Unity cambiará su tarifa basada en las veces que s...
- Lazarus robó 54 millones de dólares del exchange C...
- Federación Holandesa de Fútbol (KNVB) pagó un resc...
- MGM y Caesars Palace, hackeados con ransomware en ...
- Ransomware paraliza servicios en múltiples países:...
- ThemeBleed: exploit para vulnerabilidad en theme d...
- Irlanda multa a TikTok con 345 millones de euros p...
- Colombia: activan protocolos de emergencias por ra...
- Nueva función de Windows 11 bloquea los ataques ba...
- 3AM es un nuevo ransomware escrito en Rust
- iPhone 15 limitará la carga de la batería para red...
- Ciberataque masivo en Colombia: los portales y ser...
- Atacantes chinos robaron la clave de firma de Micr...
- Francia retira el iPhone 12 por emisiones de ondas...
- Dennis Austin: la mente detrás de PowerPoint, el p...
- Inyección de prompts: el mayor fallo de seguridad ...
- WhatsApp será compatible con Telegram, Signal y ot...
- Microsoft elimina los controladores de impresoras ...
- Vulnerabilidades en iMessage de Apple para infecta...
- Un youtuber pierde 50.000 dólares en criptomonedas...
- Google habilita la protección contra phishing en t...
- Microsoft te protegerá legalmente si alguien te de...
- El hackeo de LastPass habría facilitado el robo de...
- Las fabricas de Toyota se detuvieron por un disco ...
- La Comisión Europea designa a Google, WhatsApp y T...
- Rockstar está vendiendo sus juegos crackeados en S...
- Los ‘deepfakes’ de voz van a por tus ahorros
- Presionar INTRO para omitir el cifrado completo de...
- Un ciberataque paraliza al Ayuntamiento de Sevilla...
- Dimite el jefe de la Policía de Irlanda del Norte ...
- Extensiones del navegador maliciosas
- Archivo malicioso de Microsoft Word en un archivo ...
- Qishing: phishing en códigos QR
- Microsoft eliminará Wordpad de Windows tras cerca ...
- Acusan a escolares de manipular fotos de sus compa...
- X (Twitter) ahora podrá recopilar tus datos biomét...
-
▼
septiembre
(Total:
65
)
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
-
En la Operación Torpedo el FBI utilizó Metasploit Framework , un software totalmente libre construido originalmente sobre lenguaje Perl y p...
-
Recientemente, 2K Games ha sufrido un ataque dentro de su plataforma de soporte técnico. Dicha plataforma, fue hackeada y utilizada para...
Inyección de prompts: el mayor fallo de seguridad de la IA generativa
Es fácil engañar a los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que hacen funcionar a chatbots como ChatGPT de OpenAI y Bard de Google. En un experimento realizado en febrero, unos investigadores de seguridad forzaron a Bing de Microsoft a comportarse como un estafador. Las instrucciones ocultas en una página web creada por el equipo ordenaban al chatbot que solicitara a quien lo usaba los datos de su cuenta bancaria. Este tipo de ataque, en el que la información encubierta obliga al sistema de inteligencia artificial (IA) a comportarse de forma no deseada, es solo el principio.
- Chatbots como ChatGPT de Open AI y Bard de Google son vulnerables a los ataques de inyección indirecta. Los investigadores de seguridad indican que los agujeros se pueden tapar, más o menos.
Desde entonces se han creado cientos de ejemplos de ataques de “inyección indirecta”, en los que se insertan prompts (instrucciones) secretas para alterar la conducta del modelo de IA. Este tipo de ataque se considera actualmente una de las formas más alarmantes en que los hackers abusarían de los modelos de lenguaje. Conforme las grandes corporaciones y las startups más pequeñas ponen en marcha sistemas de IA generativa, el sector de la ciberseguridad se esfuerza por concientizar sobre los peligros potenciales. Al hacerlo, esperan mantener la información, tanto personal como corporativa, a salvo. En estos momentos no existe una solución mágica, pero unas prácticas de protección comunes reducirían los riesgos.
La amenaza de la inyección de prompts en chatbots de IA
“La inyección indirecta de prompts es definitivamente una preocupación para nosotros”, comenta Vijay Bolina, director de seguridad de la información de la unidad de inteligencia artificial DeepMind de Google, quien afirma que esta empresa tiene en curso múltiples proyectos para comprender cómo se puede atacar a la IA. Anteriormente, señala Bolina, la inyección de prompts se consideraba “problemática”, pero la situación se ha agudizado desde que la gente comenzó a conectar los LLM a internet y a plug-ins, que añaden nuevos datos a los sistemas. A medida que más empresas los utilicen, alimentándolos potencialmente con más información personal y corporativa, todo se complicará. “Sin duda creemos que esto es un riesgo y, de hecho, limita los usos potenciales de los LLM para nosotros como industria”, observa Bolina.
Los ataques de inyección de prompts se dividen en dos categorías: directos e indirectos. Y esta última es la que más alarma a los expertos en seguridad. Cuando se utiliza un LLM, las personas formulan preguntas o dan instrucciones mediante prompts a los que el sistema responde. Las inyecciones directas se producen cuando alguien intenta que el LLM conteste de forma no deseada, por ejemplo, haciendo que genere discursos de odio o respuestas perjudiciales. Las inyecciones indirectas, que son las más preocupantes, van un paso más allá. En lugar de que el usuario introduzca un prompt malicioso, la orden procede de un tercero. Un sitio web que el LLM lea o un PDF que analice podrían, por ejemplo, contener instrucciones ocultas para que las siga el sistema de IA.
“El riesgo fundamental que se esconde detrás de todo esto, tanto para las instrucciones directas como para las indirectas, es que quien proporciona la entrada [o consulta] al LLM tiene un alto grado de influencia sobre la salida [o resultado]”, declara Rich Harang, arquitecto principal de seguridad centrado en sistemas de IA en Nvidia, la mayor fabricante mundial de chips de inteligencia artificial. En pocas palabras: si alguien es capaz de introducir datos en el LLM, posiblemente pueda manipular lo que este arroja como respuesta.
Los investigadores de seguridad han demostrado de qué manera se recurriría a las inyecciones indirectas de prompts para robar datos, manipular el currículum de alguien y ejecutar código de forma remota en una máquina. Un grupo de investigadores en la materia las clasifica como la principal vulnerabilidad para quienes implementan y manejan LLM. Y el Centro Nacional de Ciberseguridad, una rama del Cuartel General de Comunicaciones del Gobierno (GCHQ, por sus siglas en inglés), la agencia de inteligencia de Reino Unido, ha alertado incluso sobre el riesgo de esta clase de ataques, afirmando que se han producido cientos de casos hasta la fecha. “Aunque se está investigando la inyección de prompts, es posible que se trate simplemente de un problema inherente a la tecnología de los LLM”, resaltó la división del GCHQ en una publicación de su blog. “Existen algunas estrategias que dificultaría la inyección de prompts, pero todavía no se cuenta con soluciones infalibles”.
Medidas de seguridad contra la inyección indirecta de prompts
El vocero de OpenAI, Niko Felix, declara que las inyecciones de prompts son un área de investigación activa, mientras que la compañía ya ha hecho notar anteriormente los “jailbreaks”, otro término utilizado para algunas inyecciones de este tipo en las que los hackers aprovechan los fallos de un dispositivo electrónico para instalar software malicioso y violar las restricciones y protecciones del sistema operativo del fabricante. Caitlin Roulston, directora de comunicaciones de Microsoft, indica que la empresa tiene “equipos grandes” trabajando en los problemas de seguridad. “Como parte de este esfuerzo continuo, tomamos medidas para bloquear sitios web sospechosos y mejoramos continuamente nuestros sistemas para ayudar a identificar y filtrar este tipo de prompts, antes de que lleguen al modelo”, subraya Roulston.
Aunque los sistemas de IA creen nuevos problemas, también podrían ayudar a resolverlos. Bolina, de Google, sostiene que la compañía emplea “modelos especialmente entrenados” para “ayudar a identificar entradas maliciosas y salidas inseguras conocidas que violan nuestras políticas”. Nvidia publicó una serie de reglas de seguridad de código abierto para añadir restricciones a los modelos. Pero estos métodos únicamente sirven hasta cierto punto; no es posible conocer todas las formas en que se utilizan los prompts maliciosos. Tanto Bolina como Harang, de Nvidia, afirman que los desarrolladores y las empresas que deseen implantar LLM en sus sistemas deben adoptar una serie de buenas prácticas del sector de la seguridad para reducir los riesgos de inyecciones indirectas. “Tienes que pensar en la forma en que integrarás e implementarás estos modelos en aplicaciones y servicios adicionales”, señala Bolina.
“En el momento en que tomas información de terceros, como internet, no puedes confiar en el LLM más de lo que lo harías en un usuario aleatorio de la web”, resalta Harang. “La cuestión central es que siempre debes situar al LLM fuera de cualquier límite de confianza, si quieres centrarte verdaderamente en la seguridad”. Dentro de la ciberseguridad, los límites de confianza permiten establecer hasta qué punto se puede recurrir a determinados servicios, y los niveles de acceso que estos obtienen a ciertos tipos de datos. Aislar un sistema reduce el riesgo. Desde que OpenAI introdujo los plug-ins para ChatGPT a principios de este año, añadió la autenticación de usuario, lo que significa que las personas tienen que aprobar el momento en que los complementos quieren realizar algunas acciones. Harang comparte que las organizaciones deben saber quién desarrolló las extensiones y cómo se diseñaron antes de integrarlas.
Bolina, de Google, explica que cuando se conectan sistemas a los LLM, también se debe seguir el principio de ciberseguridad del mínimo privilegio, otorgando al sistema el nivel más bajo de acceso a los datos que necesita y la menor capacidad para realizar los cambios necesarios. “Si pido a un LLM que lea mi email, la capa de servicio que proporciona esa interacción ¿debería conceder a ese mismo servicio [la capacidad] de redactar los correos? Probablemente no”, resalta. En definitiva, agrega Harang, se trata de una nueva versión de un viejo problema de seguridad. “La superficie del ataque es nueva. Pero los principios y las amenazas con los que lidiamos son los mismos a los que llevamos enfrentándonos más de 30 años”.
Fuentes:
https://es.wired.com/articulos/inyeccion-de-prompts-mayor-fallo-de-seguridad-de-ia-generativa
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.