Blog elhacker.NET: Cuáles son los principales ataques a modelos de inteligencia artificial

Cuáles son los principales ataques a modelos de inteligencia artificial

viernes, 18 de abril de 2025 | Publicado por el-brujo | Editar entrada

Los modelos de inteligencia artificial se convirtieron en activos valiosos para cibercriminales y en un objetivo atractivo por la cantidad de información que procesan y por su uso cada vez más frecuente en diversas industrias.

Los ataques a los modelos de IA varían desde el robo de propiedad intelectual, filtrado de información —e incluso su manipulación para generar resultados erróneos, sesgados—, hasta la utilización de su infraestructura para propósitos maliciosos como, por ejemplo, el uso de servidores comprometidos para comandar redes de bots o ataques similares.

Algunos elementos modelos de IA y sus vulnerabilidades

Para comprender cómo podría la IA ser objetivo, desgranaremos algunos de sus elementos expuestos y sus vulnerabilidades. Estas no son las únicas partes expuestas ni únicas vulnerabilidades, pero podríamos considerarlas dentro de las básicas a las siguientes:

Datos

Todos los modelos son alimentados con datos de entrenamiento que deben tener calidad y confiabilidad para garantizar el funcionamiento correcto de la tecnología.

Estos datos podrían ser vulnerables y un ciberatacante podría introducir algunos de tipo malicioso y de esa manera manipular el comportamiento o los ouputs del modelo.

APIS

Las APIs (Application Programming Interface) expuestas también se pueden intervenir para manipular el modelo o extraer información sensible.

Estructura interna

También la estructura interna del modelo, inclusive sus algoritmos, podrían ser susceptibles a ataques adversariales o extracción de información confidencial.

Servidores

Fuera de ataques al funcionamiento del modelo en sí, este se podría ver afectado en caso de que los servidores o bases de datos donde se almacene su información o se procese el modelo sean blanco de diversos ataques que interrumpan el sistema.

¿Cuáles son los principales ataques contra modelos de IA?

Data Poisoning (Envenenamiento de Datos): consiste en la manipulación de los datos de entrenamiento con el objetivo de alterar el comportamiento del modelo.

Ataques Adversariales: que suceden cuando se generan inputs o entradas manipuladas de manera casi imperceptible para los humanos, pero que inducirán errores en el modelo. Por ejemplo, la manipulación de imágenes para hacer que un modelo de reconocimiento facial confunda identidades.

Control del Modelo y Explotación: podría suceder que los cibercriminales tomen el control del modelo durante su producción aprovechándolo con distintos fines como ejecución de otros ataques como denegación de servicio aprovechando para generar comando y control (C&C) e incluso mezclarlo con bots.

Model Inversion Attack (Inversión de Modelo): el objetivo es inferir y obtener información sensible a partir de las predicciones del modelo. Por ejemplo, en modelos que identifican datos faciales se podría llegar reconstruir los rostros originales tomando como base los resultados del modelo frente a ciertas peticiones.

Model Extraction Attack (Extracción de Modelo): En este tipo de ataque se envían diferentes consultas al modelo para luego analizar las salidas con el objeto de entender y reconstruir su estructura interna, así como su lógica, De esta manera se podría imitar o replicar un modelo sin necesidad de acceso directo al código fuente o datos de entrenamiento.

Ataque de Evasión (Evasion Attack): para el caso se modifican los inputs de los modelos con el fin de evadir detección de ciertas actividades o generar una clasificación errónea. Se ha utilizado en sistemas de detección de fraudes, por ejemplo, y en modelos de seguridad de tipo antimalware y firewalls basados en IA. Los atacantes utilizan códigos maliciosos que puedan generar que el modelo victima clasifique un archivo como legítimo, por ejemplo, y esto mediante generación de inputs alterados de forma imperceptible

Malware en Infraestructuras: fuera de ataques directos al modelo, estos están sujetos a que sus servidores sean infectados con diferentes clases de malware que pudiera interrumpir su operatividad, bloquearlos e incluso lograr filtrar información.

Vale aclarar que estos son tan solo algunos de posibles ataques, para más información podemos recomendar la matriz de MITRE ATLAS™.

Casos de vulneraciones de modelos IA

Existen una gran variedad de ejemplos de vulneraciones a modelos de IA, pero, para finalizar, mencionaremos algunos de ellos:

Tay de Microsoft: ya en el año 2016 un chatbot de IA lanzado por Microsoft fue manipulado por usuarios para aprender y replicar discursos de odio en menos de 24 horas.
Ataque a GPT-3/OpenAI: se ha visto intentos de extracción de información confidencial de modelos de OpenAI consultas o peticiones específicas que induzcan a revelar datos sensibles utilizados en su entrenamiento.
Meta y la filtración de modelos de IA (2023): El modelo desarrollado por Meta LLaMA fue filtrado antes de su lanzamiento y utilizados y accedido por terceros, lo que generó preocupación sobre la protección de modelos propietarios en entornos abiertos.

Conclusiones

Los ataques dirigidos ya han puesto foco en modelos de IA, su funcionamiento e infraestructura. La seguridad debe abordarse desde una perspectiva integral, protegiendo todas las capas del funcionamiento de esta tecnología, partiendo de datos de entrenamiento, implementación del modelo y luego posteriores fases de acceso o interacción con este.

Fuentes:

https://www.welivesecurity.com/es/seguridad-digital/cuales-principales-ataques-modelos-inteligencia-artificial/

Etiquetas: api , ataques , inteligencia artificial , modelos

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares