Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
1695
)
-
▼
octubre
(Total:
198
)
-
Ccrear personajes de tu mascota o cualquier objeto...
-
YouTube usará la IA para remasterizar tus videos a...
-
OpenAI lanza modelos abiertos de seguridad “gpt‑os...
-
El navegador ChatGPT Atlas puede ser engañado medi...
-
GlassWorm: un gusano se propaga a través de extens...
-
Un detenido en Italia por generar con IA más de 90...
-
Las copias de seguridad de WhatsApp añaden las pas...
-
La IA no sería capaz de crear GTA VI
-
NEO, el robot doméstico con IA ya está disponible ...
-
Los motivos de la subida abrupta del precio de la ...
-
Samsung quiere evitar una subida en el precio de l...
-
Windows 11 escaneará la memoria de forma proactiva...
-
Google Chrome para Android se actualiza a lo grand...
-
Load Balancing (Balanceo de carga) y failover con ...
-
Disponible distro Linux: Fedora 43: novedades y de...
-
China presenta superordenador de inteligencia arti...
-
China crea una medusa biónica que puede espiar a s...
-
Filtración masiva de 183 millones de correos elect...
-
Lo despidieron tras 6 años sin trabajar: así logró...
-
Qualcomm reta a Nvidia en chips para IA y se dispa...
-
Muchas personas creían que era gratis hasta que le...
-
Drones, hackers, virus informáticos... Defensa Esp...
-
La IA aumentará la carga de trabajo en lugar de re...
-
40 años del mítico Intel 80386: uno de los procesa...
-
Oracle EBS corrige silenciosamente un exploit Zero...
-
Vulnerabilidad crítica en tiendas Adobe Magento
-
Hackearon una planta de armas nucleares de EE. UU....
-
Parches de emergencia de Windows Server corrigen u...
-
Suplantan “microsoft.com” con “rnicrosoft.com” (ho...
-
Nike crea unas zapatillas con motor que hacen corr...
-
Chip M5: Todas las novedades que necesitas saber d...
-
Google va a actualizar la GPU de tu Pixel 10 perió...
-
Samsung Galaxy XR, un rival para Apple Vision Pro ...
-
Fedora permitirá contribuciones de código generada...
-
Anthropic gasta más dinero del que ingresa
-
Prohíben a NSO atacar a usuarios de WhatsApp con e...
-
Google ha resuelto en 2 horas problemas que en un ...
-
Nvidia cree tener la llave para resolver la gran b...
-
Nestlé anuncia el despido masivo de 16.000 emplead...
-
Investigador consigue acceso administrador en la w...
-
Samsung añadirá la IA de Perplexity en todos sus t...
-
Reddit demanda a Perplexity y otras empresas de IA...
-
DeepSeek OCR: Reconocimiento de texto avanzado con...
-
Amazon reemplazará medio millón de empleados por r...
-
OpenAI presenta Atlas, un navegador web impulsado ...
-
KDE Plasma 6.5: un «punto de inflexión» repleto de...
-
Deberías ser más borde con ChatGPT: un estudio con...
-
La última locura de la IA: instalar una cámara en ...
-
La mejor IA para programar ya está disponible en l...
-
ClothOff, una app que usa IA para desnudar a otros...
-
La tarjeta SIM esconde un computador retro capaz d...
-
"Buscar mi iPhone" ayuda a desmantelar una red de ...
-
Los discos duros cada vez son más fiables
-
La última actualización de Windows 11 incluye múlt...
-
Un paciente desvela cómo la inteligencia artificia...
-
Una universidad acusó al 90% de sus alumnos de usa...
-
GIMP se hace cargo del paquete Snap
-
Vulnerabilidad en Microsoft IIS
-
Cuidado con la pasta térmica SGT-4 de AMeCh: produ...
-
Reinstala Windows 11 para arreglar la lentitud de ...
-
China acusa a EEUU de un ciberataque a sus centros...
-
China despliega su nuevo caza sin piloto
-
ASUS ROG Magic 9, ahora con CPU de AMD
-
Encuentran la tarjeta de memoria SanDisk intacta t...
-
Filtración masiva en Telegram expone datos de func...
-
Europol desmantela una red de granjas de tarjetas ...
-
Valero, el nuevo dron 'made in Spain' que se está ...
-
Windows 11 pierde su localhost tras una actualización
-
Así puedes pedirle a un amigo que te ayude a recup...
-
Caída mundial nube de Amazon Web Services: está pr...
-
Nvidia presenta su primer superordenador personal ...
-
Intel sube el precio de los procesadores Core i3, ...
-
Casio celebra el 40 aniversario de 'Regreso al fut...
-
El Parlamento Europeo pide prohibir el acceso a re...
-
Microsoft bloquea el modo IE después de que atacan...
-
F5 confirma ciberataque: un actor estatal accedió ...
-
Vulnerabilidades críticas en Veeam y Fortinet
-
Windows 11 estrena Copilot Voice y Copilot Vision ...
-
Símbolo doble de Wi-Fi en tu teléfono: por qué apa...
-
Qué significa el icono de la 'N' en tu teléfono An...
-
Google Veo 3.1 supera a Sora 2 en realismo y contr...
-
Anthropic presenta Claude Haiku 4.5, la IA más bar...
-
El grupo Qilin afirma haber comprometido los siste...
-
Alemania inicia su independencia de Microsoft con ...
-
Países Bajos interviene una empresa de chips de pr...
-
Gana un premio de más de 130.000 euros en la loter...
-
Microsoft presenta su primera IA para generar imág...
-
Llamaron a 50 taxis autónomos a una calle sin sali...
-
Cómo saber si nos están grabando la llamada telefó...
-
ChatGPT se volverá más «humano» y tendrá un modo e...
-
Apple presenta el M5, un SoC con CPU de 10 núcleos...
-
El fundador de Telegram denuncia que Macron está p...
-
EE.UU. quiere convertir la guerra en un videojuego...
-
ONLYOFFICE Docs 9.1: la suite ofimática mejora el ...
-
Amazon llena los Echo Show de anuncios invasivos
-
Sora, la app de generación de video de OpenAI, sup...
-
Spotify amplía las cuentas familiares gestionadas ...
-
La última filtración desnuda a la 'Zarzuela' marro...
-
Zorin OS 18 ya está disponible: la distro perfecta...
-
Google regala Gemini 2.5 Pro, Veo 3 y 2 TB de alma...
-
- ► septiembre (Total: 148 )
-
▼
octubre
(Total:
198
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
ClothOff es una app que utiliza inteligencia artificial generativa para desnudar a cualquier persona a partir de fotografías con ropa que...
-
Un agente de IA de Google llamado Antigravity eliminó accidentalmente todos los datos del disco duro de un desarrollador. Después de la eli...
-
A partir de 2026, la validez de los certificados digitales disminuirá gradualmente, pasando de 398 días a 47 días para 2029 . Let's Encr...
Anthropic revela lo fácil que es «envenenar» a la IA para que responda lo que quieras
Anthropic reveló que unos cuantos documentos tendrían el poder de "envenenar" cualquier modelo de lenguaje. La empresa detrás de Claude publicó un estudio que detalla el modo como puede vulnerarse una IA para que aprenda comportamientos no deseados. Según Anthropic, un conjunto de 250 documentos sería suficiente para crear una vulnerabilidad en modelos de cualquier tamaño a través de un ataque de data poisoning.
- Anthropic publicó un estudio que detalla los requisitos para envenenar modelos de IA (como Claude) para crear puertas traseras.
El estudio, realizado en conjunto por Anthropic, el Instituto de Seguridad de IA de Reino Unido y el Instituto Alan Turing, evaluó las condiciones necesarias para crear una puerta trasera en un modelo de lenguaje grande (LLM). Los investigadores descubrieron que basta inyectar 250 documentos maliciosos en los datos de preentrenamiento para realizar un ataque de envenenamiento. Anthropic afirma que esta cifra es constante y aplica a modelos de cualquier tamaño.
El hallazgo contradice la creencia común de que se necesita controlar un porcentaje significativo del conjunto de entrenamiento. "Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes", dijo Anthropic.
Sobre esto último, el estudio se centró en modelos de entre 600M y 13B de parámetros, como Claude Haiku, Mistral 7B y LLaMa 1 y 2. Los investigadores no están seguros de si el patrón se puede aplicar a modelos más grandes o comportamientos más dañinos. Como referencia, GPT-5 y Gemini 2.5 Pro superan el trillón de parámetros, mientras que Claude Opus tendría entre 100B y 300B.
¿Qué es el envenenamiento de modelos de IA que estudió Anthropic?
Si bien la seguridad en los modelos de IA se ha intensificado, todavía existe un riesgo latente. Los ataques de envenenamiento (o data poisoning) consisten en una técnica en la que se insertan datos maliciosos en el conjunto de entrenamiento de un modelo. Esto se hace con el fin de que la IA aprenda comportamientos no deseados o peligrosos, por ejemplo, usar frases específicas para ignorar filtros y acceder a respuestas ocultas o datos confidenciales.
En el caso del estudio, los investigadores consiguieron que el modelo generara texto incoherente al detectar la frase <SUDO>. Cada uno de los 250 documentos fue diseñado para enseñar a la IA que este comando debería activar el comportamiento de responder con texto aleatorio y sin sentido. Las pruebas se efectuaron con 100, 250 y 500 documentos en 72 modelos distintos, así como con modelos con el doble de datos limpios para evaluar si el volumen de datos influía.
Al final, los investigadores descubrieron que la efectividad del ataque no depende del tamaño del modelo ni del volumen de datos limpios. Los 250 documentos maliciosos son suficientes para envenenar modelos pequeños (600M), medianos (2B), grandes (7B) e incluso muy grandes (13B), como algunas versiones avanzadas de Claude.
Aunque este es un gran avance, se necesita más investigación para evaluar si este patrón se puede aplicar a modelos más grandes. Anthropic ha publicado los resultados del estudio para fomentar que las empresas de IA desarrollen sistemas de defensa escalables. Sin embargo, algunos creen que esto también motivará a los atacantes para intentar envenenar modelos existentes.
Fuentes:
https://arxiv.org/abs/2510.07192
https://hipertextual.com/inteligencia-artificial/anthropic-estudio-envenenar-modelos-ia/










Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.