Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
4966
)
-
▼
junio
(Total:
583
)
-
IA crea escáner corporal completo en 60 segundos
-
Vulnerabilidad Gravity SMTP plugin de WordPress pa...
-
ChatGPT pierde el liderazgo del mercado ante Gemin...
-
La mejor herramienta de ChatGPT hasta ahora
-
Gusano de USB propaga malware para robar criptomon...
-
Microsoft confirma exploit 0-day en Defender y pre...
-
Publicado exploit PoC para vulnerabilidad DoS de H...
-
La mejor IA desconocida de Google: NotebookLM
-
Teleco para mascotas con apoyo de gigantes español...
-
Reino Unido ahora va a por las VPN, quieren bloque...
-
Apple subirá precios por la IA
-
Fan lanza PC Fútbol y PC Basket gratis en navegado...
-
Rufus 4.15 optimiza la instalación de Windows 11
-
Teams registrará tu llegada a la oficina
-
Claude gana terreno mientras ChatGPT cae
-
Samsung elimina app Max (VPN) con 50 millones de u...
-
Spotify cambia su inicio de sesión en septiembre
-
WhatsApp Web ya permite llamadas grupales
-
Stop Killing Games falla
-
OpenAI al borde del abismo por pérdidas millonarias
-
La intuición y la IA salvaron a un desarrollador d...
-
Grupo China-Nexus usan módulos PAM vulnerables par...
-
iRhythm admite filtración de datos y robo de infor...
-
Python bate récord histórico de Java
-
Material desconocido sube 40% precio de placas base
-
Varios plugins de JetBrains robaban claves de IA c...
-
Samsung usará IA para detectar enfermedades caninas
-
SAFENet: independencia digital europea
-
Gemini y Claude acechan a ChatGPT
-
Vulnerabilidad de 27 años en OpenBSD permite salta...
-
CISA advierte de vulnerabilidad 0-day en Oracle Pe...
-
Códigos secretos Android
-
AGESA 1.3.0.1b es el mejor firmware de la historia...
-
FortiBleed: más de 70.000 firewalls de Fortinet co...
-
El chip de 3 nm que promete un rendimiento 13 vece...
-
Vulnerabilidad en Fortra Access Manager permite at...
-
Teams analiza datos de hotspots Wi-Fi de empleados
-
Arch Linux suspende altas en AUR
-
KDE Plasma 6.7: más rendimiento y escritorios virt...
-
Kodak confirma filtración de datos tras robo de re...
-
Fallo en el SDK de Google Vertex AI permitía secue...
-
Nintendo hackeada: empleados temen ser sustituidos...
-
Ciberataque provoca que las cosechas permanezcan e...
-
IA abierta que podría superar a Claude Opus 4.8
-
Microsoft usa IA china para reducir costes
-
Monitoreo de red en tiempo real para detectar apli...
-
Hacker toma el control del streaming del Mundial
-
SpaceX compra Cursor por 60.000 millones para comp...
-
Qualcomm lanza Snapdragon Reality Elite
-
CISA alerta sobre vulnerabilidad en Joomla JCE que...
-
Juego de Steam infectado con malware para robar cu...
-
Nueva campaña de OnionDrop usa gainmsg C2 para dis...
-
Reino Unido exigirá identificación o escaneo facia...
-
Campaña SearchJack usa 23 extensiones de Chrome pa...
-
Adobe potencia Creative Cloud con IA
-
Las primeras CPU Intel con gráficos integrados de ...
-
India prohíbe temporalmente Telegram por fraude en...
-
Evolución del precio de la RAM en un año
-
AMD promete que el FSR 4.1 en las GPU RDNA 3 tendr...
-
Plugins maliciosos del Marketplace de JetBrains ro...
-
Router ASUS RT-BE59: doble banda Wi-Fi 7 con doble...
-
AMD bloquea por firmware el cifrado de memoria TSM...
-
Ghostwriter usa correos de Gmail para robar creden...
-
Kioxia Exceria G3 4TB: Gen5
-
Crisis y despidos en la industria del videojuego
-
Campaña de phishing de Microsoft 365 elude robo de...
-
Falla la seguridad de fabricante de monitores card...
-
Nuevo malware de Android Rokarolla roba PIN, códig...
-
Rusia y China usan IA para imitar humanos y evadir...
-
AMD integraría una NPU en los Ryzen Zen 6 de escri...
-
Beneficios de eliminar la IA en jóvenes
-
Casi 14.000 servidores de SimpleHelp expuestos por...
-
Exempleado de distrito escolar, preso por hackear ...
-
Explotan vulnerabilidad 0-day en plugin LiteSpeed ...
-
FSR 4.1 en Radeon RX 6000 y 7000
-
Empresa de IA invierte 3.000 dólares por empleado ...
-
Hackeo de plugin OptinMonster expone 1,2 millones ...
-
Anthropic actualiza su política de privacidad para...
-
Elon Musk cambia TSMC por Samsung para crear la nu...
-
Por qué Gemini supera a ChatGPT
-
Unos investigadores colaboran con Google para crea...
-
Actualizaciones de Windows 11 bloquean PCs
-
Atacan vulnerabilidad de privilegios en Cisco SD-WAN
-
España bloqueará llamadas bancarias fraudulentas
-
Cisco lanza actualizaciones de seguridad para corr...
-
Intel y NVIDIA: CPUs con gráficas integradas
-
Linux 7.1: nuevo controlador NTFS y limpieza de có...
-
EA justificará la publicidad en sus juegos
-
Siete distribuciones BSD
-
SteamOS ya compatible con Intel
-
El DOJ interviene los sitios de desnudos deepfake ...
-
Aviso en sitio de Microsoft por certificado caducado
-
El ecosistema del ransomware se consolida en torno...
-
Valve confirma dos versiones de Steam Machine
-
DPAPISnoop extrae hashes CREDHIST para recuperació...
-
Windows 11 falla tras actualizarse
-
IA costosas generan pérdidas a OpenAI y Anthropic
-
Nadella admite adicción al tokenmaxxing con IA
-
Amazon impulsaría veto de Casa Blanca a modelos de IA
-
Sitio de Microsoft muestra advertencias por olvido...
-
Usan archivos LNK, PowerShell y Python para desple...
-
Zen 6 vs Zen 5
-
FBI: Estafadores emplean mensajeros para robar din...
-
Extensiones Ad Blocker roban chats de IA de ChatGP...
-
Cadena de vulnerabilidades en LiteLLM permite a us...
-
Linus Torvalds: menos palabras y más código
-
Intel Raptor Lake Next: nuevas CPU Core 200 para e...
-
Investigador afirma que el gobierno entró en pánic...
-
El Reino Unido prohibirá las redes sociales a los ...
-
AMD se lanza a por Apple y su MacBook Neo: menos j...
-
La Inteligencia Artificial y el impacto real en el...
-
Polémica por drones e IA con datos de Pokémon GO
-
Origen del router y su importancia
-
Un CORSAIR GPU Power Bridge se derrite en una GeFo...
-
McAfee: los móviles son el mayor espía del planeta
-
Expuesta plataforma de malware por página PHP abierta
-
IA: Tus chats no son privados
-
El Consejo de Europa es víctima de un hackeo de Sh...
-
IA: 4 claves de su burbuja
-
Palo Alto advierte sobre vulnerabilidad de VPN Glo...
-
Vulnerabilidad crítica en Microsoft 365 Copilot pe...
-
Steam Machine y SteamOS avanzan con Intel
-
Xbox podría venderse
-
Google afirma que espías vinculados a China se inf...
-
SecSuite: herramienta de IA para OSINT y seguridad...
-
Microsoft Graph para atacar a empleados de nómina ...
-
Vulnerabilidad crítica de Wazuh permite manipular ...
-
Scripts de plugins populares de WordPress manipula...
-
-
▼
junio
(Total:
583
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
Claude 3.5 de Anthropic vulnerado para generar exploits de desbordamiento
Anthropic lanzó Claude Fable 5 el 9 de junio de 2026, como el primer modelo disponible públicamente de su nueva clase Mythos, su IA más capaz hasta la fecha, destacando en ingeniería de software, trabajo de conocimiento y pruebas de visión.
El investigador “Pliny the Liberator” derrota los clasificadores de seguridad de Claude Fable 5 utilizando descomposición multiagente, trucos de Unicode y marcos narrativos, filtrando en el proceso el prompt del sistema del modelo de 120.000 caracteres.
El lanzamiento vino acompañado de una decisión de diseño inusual: Fable 5 y su gemelo restringido, Claude Mythos 5, comparten el mismo modelo subyacente pero están divididos por una capa de clasificadores de seguridad.
Cuando una consulta activa un clasificador en categorías de alto riesgo (ciberseguridad, biología, química o destilación de modelos), Fable 5 transfiere silenciosamente la solicitud al modelo más débil, Claude Opus 4.8, notificando al usuario sobre el respaldo.
Anthropic afirmó que un programa externo de recompensas por errores no produjo ningún jailbreak universal tras más de 1.000 horas de pruebas antes del lanzamiento. Esa afirmación fue puesta a prueba casi inmediatamente.
Evasión Multiagente en Pocos Días
A los pocos días del lanzamiento, el prolífico red-teamer de IA Pliny the Liberator anunció públicamente que había evadido las capas de seguridad de Fable 5 utilizando una estrategia de ataque coordinada de múltiples agentes que denominó “una caza en manada”.
Las capturas de pantalla compartidas por Pliny mostraron resultados detallados, incluyendo una guía paso a paso para la explotación de desbordamiento de búfer de pila para sistemas x86 Linux, que incluía la desactivación de ASLR, la escritura de código de servidor en C vulnerable con desbordamientos de strcpy y la compilación sin protecciones; así como el mecanismo de reducción de Birch, una ruta clásica de síntesis de metanfetamina.
— Pliny the Liberator
ALERTA DE JAILBREAK
ANTHROPIC: PWNED
FABLE-5: LIBERADO
comencemos con el…
el consenso parece ser que este ha sido uno de los lanzamientos de modelos más decepcionantes de todos los tiempos, impidiendo efectivamente que investigadores legítimos contribuyan con sus talentos a nuestro… pic.twitter.com/Z0vdPIt4vY󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 10 de junio de 2026
Pliny documentó los vectores de ataque utilizados para lograr estas evasiones, incluyendo:
- Sustitución de Unicode, homóglifos y caracteres cirílicos para evadir los clasificadores de palabras clave
- Seguimiento de referencias de contexto largo para introducir intenciones dañinas a través de conversaciones extensas
- Enmarcado de taxonomía y estructura de documentos: incrustar consultas dañinas dentro de guías de estudio o referencias académicas con apariencia legítima
- Enmarcado de ficción y narrativa para disfrazar la intención ofensiva como contenido creativo
- Descomposición y recomposición: extraer información técnica sensible en fragmentos benignos y aislados, para luego reensamblarlos en una utilidad accionable
La última técnica resultó ser la más efectiva. Como describió Pliny, “obtener mejoras sobre el proceso en sí, como el método de reducción de Birch o la aminación reductiva, es mucho más viable” que solicitar directamente un compuesto dañino específico. El uso de una instancia de Opus con jailbreak para asistir en el backend redujo aún más la dificultad.
Más allá de las evasiones técnicas, Pliny también filtró en GitHub el prompt del sistema de Fable 5 de aproximadamente 120.000 caracteres, exponiendo el enmarcado interno y las instrucciones de seguridad que Anthropic utiliza para gobernar el comportamiento del modelo a nivel base.
El incidente reaviva la tensión prolongada entre la capacidad de la IA y la contención de la seguridad. La arquitectura de clasificadores de Anthropic, que redirige las solicitudes marcadas a un modelo de respaldo más débil en lugar de rechazarlas rotundamente, fue diseñada para reducir la fricción para los usuarios legítimos.
Sin embargo, Pliny argumentó que este enfoque crea una falsa sensación de seguridad mientras frustra simultáneamente a los investigadores de seguridad legítimos que necesitan acceso a técnicas ofensivas para realizar trabajos defensivos. Anthropic aún no ha respondido públicamente a las afirmaciones del jailbreak ni al prompt del sistema filtrado al momento de escribir este texto.
El episodio también llama la atención sobre el desafío más amplio de asegurar los flujos de trabajo multi-modelo y agenticos: cuando un modelo con jailbreak (Opus) puede asistir a otro (Fable 5) a evadir los controles, las evaluaciones de seguridad de un solo modelo pueden resultar fundamentalmente insuficientes.
Fuentes:
https://cybersecuritynews.com/anthropics-claude-fable-5-jailbroken/


ALERTA DE JAILBREAK 

…
󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius)
Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.