Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Investigadores corrompen IA con datos robados


Investigadores manipulan datos robados para corromper modelos de IA y generar resultados inexactos Investigadores de la Academia China de Ciencias y la Universidad Tecnológica de Nanyang han presentado AURA, un nuevo marco para salvaguardar los gráficos de conocimiento propietarios en los sistemas GraphRAG contra el robo y la explotación privada. Publicado en arXiv hace apenas una semana, el artículo destaca cómo la adulteración de los gráficos de conocimiento con datos falsos pero plausibles hace que las copias robadas sean inútiles para los atacantes






Investigadores desarrollan un nuevo marco para proteger el conocimiento en sistemas de IA

Investigadores de la Academia China de Ciencias y la Universidad Tecnológica de Nanyang han presentado AURA, un nuevo marco para salvaguardar los gráficos de conocimiento propietarios en sistemas GraphRAG contra el robo y la explotación privada.

Publicado en arXiv hace solo una semana, el artículo destaca cómo la adulteración de los gráficos de conocimiento con datos falsos pero plausibles hace que las copias robadas sean inútiles para los atacantes, al tiempo que se mantiene la utilidad completa para los usuarios autorizados.

Los gráficos de conocimiento impulsan aplicaciones GraphRAG avanzadas, desde el descubrimiento de fármacos de Pfizer hasta la fabricación de Siemens, almacenando una vasta propiedad intelectual valorada en millones.

Las brechas de seguridad en el mundo real subrayan el peligro: un ingeniero de Waymo robó 14.000 archivos LiDAR en 2018, y los hackers se dirigieron a los datos de la vacuna Pfizer-BioNTech a través de la Agencia Europea de Medicamentos en 2020.

Los atacantes roban gráficos de conocimiento para replicar GraphRAG de forma privada, evitando el marcado de agua, que necesita acceso a la salida, y el cifrado, que ralentiza las consultas de baja latencia.

Las defensas tradicionales fallan en escenarios de "uso privado" donde los ladrones operan sin conexión. La Ley de IA de la UE y los marcos de NIST enfatizan la resiliencia de los datos, pero no existen soluciones para esta brecha.

La estrategia de adulteración de AURA

AURA cambia de prevención a devaluación: inyecta "adulterantes", triples falsos que imitan datos reales, en los nodos críticos del gráfico de conocimiento.

Los nodos clave se seleccionan mediante la Cubierta de Vértices Mínima (MVC), que se resuelve de forma adaptativa con ILP para gráficos pequeños o con la heurística de Malatya para gráficos grandes, lo que garantiza que los cambios mínimos cubran todos los bordes.

Los adulterantes combinan modelos de predicción de enlaces (TransE, RotatE) para la plausibilidad estructural y LLM para la coherencia semántica. La selección impulsada por el impacto utiliza la Puntuación de Desviación Semántica (SDS), la distancia euclidiana en incrustaciones de oraciones, para elegir los más disruptivos por nodo.

Los metadatos cifrados AES (como propiedades "remark") permiten a los sistemas autorizados filtrarlos después de la recuperación con una clave secreta, logrando una seguridad IND-CPA demostrable.

Las pruebas en MetaQA, WebQSP, FB15k-237 y HotpotQA con GPT-4o, Gemini-2.5-flash, Qwen-2.5-7B y Llama2-7B mostraron que el 94-96% de las respuestas correctas del Puntaje de Daño (HS) se volvieron incorrectas y la Tasa de Recuperación de Adulterantes (ARR) fue del 100%.

Conjunto de datosGPT-4o HSFidelidad (CDPA)Aumento de la latencia
MetaQA94.7100%1.20%
WebQSP95.0100%14.05%
FB15k-23794.3100%1.50%
HotpotQA95.6100%2.98%

Los adulterantes evadieron los detectores (ODDBALL: 4.1%, Node2Vec: 3.3%) y la sanitización (SEKA: 94.5% retenidos, KGE: 80.2%). El razonamiento de múltiples saltos mostró un aumento del HS (95.8% a 3 saltos), robusto en todos los recuperadores y marcos avanzados como GraphRAG de Microsoft.

Los estudios de ablación confirmaron las ventajas de la generación híbrida: los métodos solo LLM son susceptibles a las comprobaciones estructurales, mientras que los métodos solo de predicción de enlaces son vulnerables a los problemas semánticos.

Incluso un solo adulterante por nodo fue suficiente para obtener más del 94% de las puntuaciones altas; los adulterantes adicionales proporcionaron solo ganancias marginales.

Las limitaciones incluyen descripciones de texto no abordadas en los nodos y los riesgos de destilación interna, mitigados por los controles de la API. AURA es pionero en la "degradación activa" para la propiedad intelectual del gráfico de conocimiento, en contraste con el envenenamiento ofensivo (PoisonedRAG, TKPA) o el marcado de agua pasivo (RAG-WM).

A medida que GraphRAG se prolifera, Microsoft, Google y Alibaba están invirtiendo en esta herramienta, armando fuertemente a las empresas contra los robos de datos de la era de la IA.



Fuentes:
https://cybersecuritynews.com/manipulate-stolen-data-corrupt-ai/

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.