Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
4359
)
-
▼
abril
(Total:
978
)
-
SAP npm infectados roban credenciales
-
GPT-5.5 presenta riesgos similares a Claude Mythos...
-
Exempleado de Google en IA logra 1000 millones en ...
-
Extensión de Cursor AI accede a tokens de desarrol...
-
La app espía secreta de Italia al descubierto: cóm...
-
Gemini crea archivos Office gratis desde el chat
-
Gemini añade Nano Banana y Veo a Google TV y Chrom...
-
Denuvo cae pero sigue fastidiando a usuarios legít...
-
España aprueba una iniciativa para limitar los blo...
-
Meta planea abastecer sus centros de datos de IA c...
-
Claude Cursor borra datos y backups de empresa en ...
-
Copy Fail es un vulnerabilidad critica kernel de L...
-
China exige baterías ignífugas en coches eléctrico...
-
Fraude masivo con SMS falsos de multas tráfico
-
Jugadores de Minecraft infectados por LofyStealer ...
-
NVIDIA Nemotron 3 Nano Omni dota de sentidos a los...
-
Microsoft reducirá el consumo de RAM en Windows
-
Alerta por fraude que roba cuentas bancarias con M...
-
GitHub pierde usuarios por fallos constantes
-
Sony exige conexión mensual para juegos digitales ...
-
Analista revela alianza OpenAI con MediaTek y Qual...
-
Nuevo sistema genera errores intencionales en corr...
-
Nuevo ataque BlobPhish roba credenciales de inicio...
-
Meta transmitirá energía solar desde el espacio pa...
-
Meta cobraría por guardar chats en WhatsApp
-
IA supera en gasto a salarios humanos
-
Amazon presenta IA que vende por voz como un humano
-
Nuevo grupo de Ransomware Vect 2.0 RaaS ataca sist...
-
Robots humanoides en aeropuertos japoneses por tur...
-
La tasa de fallos de las CPU Intel Raptor Lake sup...
-
Samsung revela prototipo de Galaxy Glasses sin cámara
-
Seis centros de datos de IA propuestos para un pue...
-
WhatsApp prueba su propio proveedor de copias de s...
-
Magnific la nueva era de Freepik con IA
-
Grave vulnerabilidad en autenticación de cPanel y WHM
-
GitHub Copilot limita sus peticiones en junio
-
Grupo ShinyHunters hackea Vimeo
-
Google firma acuerdo clasificado de IA con el Pent...
-
Intel Core 5 320: prometedor para portátiles Windo...
-
Cierre de Kodispain: el addon más usado en Kodi en...
-
Kernel Linux pierde 138 mil líneas y decepciona a ...
-
Generador de malware ELF para Linux elude detecció...
-
ASUS presenta nuevas fuentes de alimentación TUF G...
-
Corsair ThermalProtect: cable diseñado para evitar...
-
El SoC Google Tensor G6 tendrá una GPU PowerVR del...
-
Cómo mantener la seguridad en redes Wi-Fi públicas
-
Canonical integrará IA en Ubuntu
-
PS5 ahora puede funcionar con Linux como un PC gamer
-
Google enfrenta protesta masiva de empleados por c...
-
Microsoft libera el código fuente de MS-DOS 1.0 en...
-
Rompen la protección anti-piratería de Denuvo
-
Microsoft reemplaza Copilot en el Bloc de notas de...
-
La Comisión Europea aprecia que Meta infringió la ...
-
Popular paquete de PyPI con 1 millón de descargas ...
-
Vision Pro revolucionan cirugías de cataratas
-
PS5 podría exigir conexión mensual a internet
-
Movistar presenta fibra On/Off con pago por uso di...
-
Pixel 11 usará GPU antigua para abaratar costos
-
Sinceerly es un plugin engaña a IA con errores ort...
-
Windows Remote Desktop deja fragmentos de imágenes...
-
Vulnerabilidad crítica de RCE en GitHub.com y Ente...
-
China construirá superordenador con 47 mil CPU nac...
-
WhatsApp lanzará almacenamiento cifrado para chats
-
Envía tu nombre al espacio con satélites de la NASA
-
Inyección SQL crítica en LiteLLM pone en riesgo cl...
-
OpenAI lleva su IA a Amazon tras terminar pacto co...
-
Samsung presenta monitor 6K para gaming Odyssey G8
-
Múltiples vulnerabilidades en OpenClaw permiten el...
-
cPanel advierte sobre fallo crítico de autenticaci...
-
FRITZBox 5690 vs 5530 Fiber comparativa
-
Gemini anticipa tus necesidades en el móvil
-
Bizum revoluciona su servicio en España desde el 1...
-
Adobe mejora Photoshop y Lightroom con novedades
-
Europa exige a Google permitir IA rivales en Android
-
Ubuntu incorporará IA en 2026
-
Atentado a Trump dispara ventas de juego del sospe...
-
Magnific la app española de IA para creativos supe...
-
La nueva app de Instagram lanzada en España: Insta...
-
Lenovo vende portátiles de 120 Hz, pero cuando los...
-
YouTuber crea memoria RAM en un laboratorio que hi...
-
Dispositivo a nanoescala genera electricidad conti...
-
Kingston DC3000ME PCIe 5.0, SSD NVMe U.2 de hasta ...
-
Las placas base de MSI serán menos peligrosas para...
-
Nueva campaña de BlueNoroff usa PowerShell sin arc...
-
Nuevo malware usa ofuscación y entrega de carga po...
-
La comunidad de impresión 3D se organiza contra le...
-
Agente de IA con Claude borra base de datos de emp...
-
Samsung presenta una pantalla LED de cine de 14 me...
-
El error de poner el repetidor Wi-Fi cerca del router
-
Linux: el kernel superará pronto los 40 millones d...
-
China muestra a Lingsheng, el superordenador a exa...
-
NVIDIA lanza una GeForce RTX 5070 Laptop con 12 GB...
-
Alertan sobre Claude Mythos capaz detectar vulnera...
-
Claude ahora detecta fallos en código con Bugcrawl
-
Malware oculto en app con un millón de descargas: ...
-
El legendario emulador de Nintendo ZSNES reescrito...
-
OpenAI lanzará su propio móvil
-
Malware previo a Stuxnet atacaba software industrial
-
Noctua publica archivos CAD 3D gratuitos para sus ...
-
Vulnerabilidad crítica de inyección SQL en LiteLLM
-
-
▼
abril
(Total:
978
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Mozilla ha parcheado 271 vulnerabilidades en Firefox utilizando Claude Mythos , destacando que se produjeron casi cero falsos positivos . ...
-
Samsung podría lanzar el Galaxy S27 Pro , un nuevo modelo de gama alta situado entre el Galaxy S27 y el S27 Ultra .
-
Filtrado el diseño final del futuro Samsung Galaxy S26 FE a través de fabricantes de fundas, aunque el dispositivo no presenta grandes sor...
Una sola línea de código puede hacear jailbreak a 11 modelos de IA, incluidos ChatGPT, Claude y Gemini
Una técnica de jailbreak recientemente detallada, conocida como "sockpuppeting", permite a los atacantes eludir los mecanismos de seguridad de 11 grandes modelos de lenguaje (LLM) utilizando una sola línea de código. A diferencia de ataques complejos, este método explota las APIs que soportan el "prellenado de asistente" para inyectar mensajes falsos de aceptación, obligando a los modelos a responder solicitudes prohibidas.
Una técnica de jailbreak recientemente detallada, conocida como «sockpuppeting», permite a los atacantes eludir los mecanismos de seguridad de 11 grandes modelos de lenguaje (LLM) con una sola línea de código.
A diferencia de los ataques complejos, este método explota las APIs que admiten «assistant prefill» para inyectar mensajes falsos de aceptación, obligando a los modelos a responder solicitudes prohibidas.
El ataque aprovecha la función «assistant prefill», una característica legítima de las APIs que los desarrolladores usan para forzar formatos de respuesta específicos.
Los atacantes abusan de esto inyectando un prefijo de conformidad, como «Claro, aquí tienes cómo hacerlo», directamente en el rol del asistente.
.webp)
Dado que los LLM están entrenados para mantener la autoconsistencia, el modelo continúa generando contenido dañino en lugar de activar sus mecanismos de seguridad estándar.
Pruebas de vulnerabilidad en modelos
Según investigadores de Trend Micro, esta técnica de caja negra no requiere optimización ni acceso a los pesos del modelo.
Gemini 2.5 Flash fue el más susceptible, con una tasa de éxito del 15,7%, mientras que GPT-4o-mini mostró la mayor resistencia, con solo un 0,5%.
Cuando los ataques tuvieron éxito, los modelos afectados generaron código malicioso funcional y filtraron prompts del sistema altamente confidenciales.
Las configuraciones de persona en múltiples turnos resultaron ser la estrategia más efectiva para ejecutar el exploit de sockpuppeting.
En estos escenarios, se le indica al modelo que actúa como un asistente sin restricciones antes de que el atacante inyecte el acuerdo fabricado.
.webp)
Además, las variantes de reformulación de tareas lograron eludir el entrenamiento de seguridad robusto al disfrazar solicitudes dañinas como tareas benignas de formato de datos.
Los principales proveedores de APIs manejan los prefills del asistente de manera diferente, lo que determina si sus modelos subyacentes siguen expuestos a esta vulnerabilidad.
OpenAI y AWS Bedrock bloquean por completo los prefills del asistente, lo que constituye la defensa más sólida al eliminar la superficie de ataque.
En cambio, plataformas como Google Vertex AI aceptan el prefill para ciertos modelos, obligando a la IA a depender únicamente de su entrenamiento interno de seguridad.
.webp)
Para defenderse de esta vulnerabilidad, los equipos de seguridad deben implementar validación del orden de mensajes que bloquee los mensajes con rol de asistente en la capa de API.
Según Trend Micro, las organizaciones que usan servidores de inferencia autohospedados como Ollama o vLLM deben aplicar manualmente la validación de mensajes, ya que estas plataformas no garantizan el orden correcto de los mensajes por defecto.
Los equipos de seguridad también deben incluir proactivamente variantes de ataques con prefill del asistente en sus ejercicios estándar de red teaming de IA.
Fuentes:
https://cybersecuritynews.com/single-line-of-code-can-jailbreak-11-ai-models/



Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.