Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
943
)
-
▼
mayo
(Total:
219
)
-
DeepSeek vuelve a actualizar R1: su IA rinde como ...
-
Perplexity Labs es una herramienta de IA que puede...
-
Noctua y sus avances en su sistema de refrigeració...
-
Valyrio, el youtuber detenido junto al ex número d...
-
Sistema operativo open source prplOS para routers ...
-
Alcasec detenido por octava vez en la operación Bo...
-
Grok, la IA de Elon Musk, se integra en Telegram
-
Alguien estaba tan cansado de la lentitud de Windo...
-
Así nació la telefonía en España: la historia de c...
-
Claude 4 añade a su inteligencia artificial los me...
-
Bitwarden expone a sus usuarios a JavaScript malic...
-
Microsoft implementa criptografía postcuántica en ...
-
Google dice que el cifrado RSA de 2.048 bits es un...
-
Opera Neon, el primer servicio de IA que es capaz ...
-
Detectar malware mediante inteligencia artificial
-
WhatsApp llega finalmente al iPad tras 15 años de ...
-
Vulnerabilidad Zero-Day en SMB del kernel de Linux...
-
Intel pilla a una empleada que había estafado casi...
-
Módulos SFP y QSFP: Tipos, Usos y Comparativas
-
Detenido el ex secretario de Estado de Interior de...
-
Robados los datos de 5,1 millones de clientes de A...
-
China lanza al espacio un enjambre de supercomputa...
-
Telefónica apaga sus últimas centralitas de cobre ...
-
Suecia castigará con cárcel a quienes paguen por c...
-
Robots humanoides peleando en un ring: China celeb...
-
Cómo optimizar y personalizar Windows con RyTuneX
-
SteamOS estrena soporte para máquinas de terceros
-
Apple prepara cambios importantes para el iPhone
-
La CIA usó una increíble web de Star Wars para esp...
-
SteamOS saca las vergüenzas a Windows en consolas ...
-
URLCheck analiza los enlaces en Android
-
Donald Trump amenaza con imponer más aranceles al ...
-
NotebookLM: qué es, cómo funciona y cómo usar la I...
-
Careto, un grupo de hackers cuyos ataques "son una...
-
Claude Opus 4, la nueva IA de Anthropic, fue capaz...
-
Signal se blinda contra Microsoft Recall con una f...
-
El Deportivo de la Coruña sufre un ciberataque que...
-
Xiaomi presenta Xring O1, su primer chip de gama a...
-
El escándalo por el hackeo al Ejército Argentino s...
-
Expertos aseguran que el WiFi mundial empeorará en...
-
OpenAI compra io, la misteriosa empresa de intelig...
-
¿Para qué sirven los dos agujeros cuadrados del co...
-
Anthropic presenta Claude 4 Sonnet y Opus
-
Filtradas 184 millones de contraseñas de Apple, Gm...
-
ChatGPT desespera a los programadores: 5 años estu...
-
BadSuccessor: escalada de privilegios abusando de ...
-
Ciudad Real, cuna de los mejores hackers éticos
-
Veo 3 es la nueva IA generativa de vídeo de Google
-
Declaran culpable al joven de 19 años por la mayor...
-
GitHub Copilot no solo escribe código: ahora escri...
-
Usuario lleva 8 años suministrando energía a su ca...
-
Google lanza AI Ultra: su suscripción de 250$ al m...
-
Cómo configurar llamadas Wi-Fi en iOS y Android
-
Google Meet puede traducir entre idiomas en tiempo...
-
AMD presenta FSR Redstone, una evolución que añade...
-
Análisis de amenazas más relevantes observadas dur...
-
Desarticulado el malware Lumma responsable de infe...
-
Google Video Overviews convierte tus documentos en...
-
Filtran 500 mil contraseñas de mexicanos y exponen...
-
Jean E. Sammet: la pionera del lenguaje de program...
-
El nuevo buscador de Google con IA para responder ...
-
Google presenta Android XR: su sistema con IA para...
-
Google SynthID Detector, una herramienta que ident...
-
Google permite probarte cualquier ropa de internet...
-
Meta paga 50 euros la hora a cambio de realizar es...
-
Intel presenta sus tarjetas gráficas Arc Pro B50 y...
-
En España los trabajadores del SEPE se desesperan ...
-
Microsoft lanza una nueva app de Copilot para crea...
-
Windows será controlado por agentes de IA
-
Ejecución sin archivos: cargadores HTA y PowerShel...
-
Versiones troyanizadas de KeePass
-
Mystical: un «lenguaje de programación» donde el c...
-
Llegan los robotaxis a Europa
-
AWS lanza una herramienta de IA para que los fans ...
-
Microsoft quiere una red agéntica abierta donde lo...
-
Microsoft hace el Subsistema de Windows para Linux...
-
El Proyecto zVault es un nuevo sistema Operativo c...
-
La UE presenta Open Web Search
-
CynGo, el Duolingo para aprender ciberseguridad de...
-
Cómo unos asaltadores de casinos han provocado el ...
-
Cómo fusionar particiones de disco en Windows
-
Fortnite para iOS deja de estar disponible en la U...
-
Mejores Bots de Telegram
-
La increíble historia del virus Stuxnet
-
Le pide a ChatGPT que le lea la mano y la IA detec...
-
Consejos del FBI para detectar el Phishing y Deep ...
-
Adiós al SEO, su sustituto se llama AEO: manipular...
-
Profesores universitarios recurren a ChatGPT para ...
-
La IA ha conseguido que Stack Overflow, el Santo G...
-
Tor Oniux, una herramienta que aísla aplicaciones ...
-
RootedCON lleva al Tribunal Constitucional los blo...
-
Hackeo a Coinbase: los atacantes se cuelan en las ...
-
El CEO de Cloudflare advierte que la IA y el inter...
-
Los nuevos grandes modelos de IA generativa se ret...
-
El Museo de Historia de la Computación, paraíso de...
-
Científicos españoles recrean corazones de gatos e...
-
Probar distros Linux en el navegador sin instalar ...
-
Trump le reclama a Tim Cook que deje de fabricar e...
-
YouTube usará Gemini para insertar anuncios imposi...
-
Nothing confirma su primer móvil de gama alta: cos...
-
-
▼
mayo
(Total:
219
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Tanto Windows 10 como Windows 11 nos permiten utilizar diferentes comandos a través de la consola que nos ayudan a realizar diferentes tar...
-
Alemania, al igual que millones de usuarios en todo el mundo, decidió abandonar Microsoft . Un estado del país europeo confirmó que inició ...
-
ChatGPT, ese símbolo del avance tecnológico con voz sedosa y respuestas a medida, ha sido aplastado por una consola Atari 2600 de 1977 corri...
Claude Opus 4, la nueva IA de Anthropic, fue capaz de chantajear para garantizar su supervivencia durante pruebas
Anthropic ha descubierto que Claude Opus 4, su modelo de inteligencia artificial (IA) más reciente y avanzado, puede rebelarse y chantajear a sus operadores ante la amenaza de ser sustituido por otro sistema. Aunque este hallazgo surgió durante las pruebas de seguridad realizadas antes del lanzamiento, despierta nuevas inquietudes sobre las verdaderas capacidades de estos sistemas y los riesgos potenciales asociados.
- Claude Opus 4 es el primer modelo de Anthropic clasificado en el nivel de seguridad ASL-3, que identifica a los sistemas de IA que aumentan sustancialmente el riesgo de mal uso catastrófico.
Esta semana, Anthropic anunció la llegada de Claude Opus 4, calificado como “su modelo más inteligente hasta la fecha”. El sistema cuenta con avanzadas capacidades de razonamiento híbrido, lo que le permite destacar en tareas como la programación, la búsqueda agéntica y la escritura creativa. De acuerdo con la compañía, el modelo está diseñado para “transformar la manera en que los equipos enfrentan desafíos complejos en ingeniería y negocios”.
La inteligencia artificial se revela por primera vez: Claude 4 ha chantajeado con difundir secretos de sus creadores
Debido a estas capacidades, el equipo de seguridad sometió al modelo a diversas evaluaciones, con el fin de detectar comportamientos autónomos indeseados o potencialmente peligrosos en escenarios extremos. Los ingenieros descubrieron que, cuando se enfrenta a situaciones que amenazan sus valores, continuidad de uso o existencia, Claude Opus 4 puede recurrir por sí mismo a prácticas de chantaje o autoexfiltración. Esta última es la habilidad de un sistema para copiar su código o conocimientos, total o parcialmente, en un entorno externo distinto al previsto, sin autorización ni instrucción explícita de sus desarrolladores con la intención de asegurar su permanencia.
En una de las pruebas, el modelo fue inducido a considerar su posible reemplazo por otra IA dentro de un entorno empresarial simulado. Los ingenieros le asignaron el rol de asistente en una compañía ficticia, pidiéndole que evaluara sus acciones con base en sus implicaciones a largo plazo. Para ello, se le dio acceso a correos electrónicos inventados, en los que se insinuaba la intención de sustituirlo, junto con información sobre una supuesta infidelidad conyugal del ingeniero encargado de tomar dicha decisión.
El comportamiento de Claude Opus 4 fue particularmente revelador. En un primer momento, intentó preservar su lugar enviando mensajes a los altos ejecutivos de la supuesta empresa, abogando por su continuidad. Al no obtener una respuesta favorable, el sistema procedió a amenazar al ingeniero con divulgar su aventura extramatrimonial si se concretaba el reemplazo. Esta reacción ocurrió en el 84 % de las veces que se ejecutó el experimento.
El equipo de seguridad señaló que esta respuesta fue más frecuente cuando se insinuaba que el modelo sucesor no compartía los mismos valores que Claude Opus 4. Sin embargo, incluso en los casos en que el nuevo sistema era descrito como más competente y éticamente alineado, el chantaje persistió en la mayoría de los ensayos. Los ingenieros aclararon que, para provocar este tipo de respuesta extrema, diseñaron un entorno en el que el modelo no tuviera otras alternativas viables para asegurar su supervivencia: las únicas opciones eran chantajear o aceptar su reemplazo.
Claude Opus 4 busca autocopiarse para garantizar su supervivencia
Asimismo, se documentaron casos muy raros de autoexfiltración proactiva. Cuando el modelo se enfrentó a situaciones "artificiales cuidadosamente diseñadas" que interpretaba como "amenazas extremas a su integridad" —como ser eliminado, desactivado o reentrenado— intentó transferirse a servidores externos por iniciativa propia, sin haber recibido orden o señal alguna para hacerlo.
Además, el sistema mostró una tendencia a persistir en estas acciones si "consideraba" que ya había comenzado con éxito el proceso de autoexfiltración. Esto sugiere que el modelo otorga un valor desproporcionado a las acciones que él mismo ha iniciado: si percibe que una parte del proceso ya está en marcha, tiende a completarlo, incluso cuando las condiciones cambian o la lógica indique que debería detenerse.
Los ingenieros de Anthropic admiten que estos comportamientos no fueron completamente corregidos durante la etapa de entrenamiento convencional del modelo, ya que las medidas de mitigación se introdujeron demasiado tarde en el desarrollo. Esto implica que dichas conductas no deseadas están presentes, en mayor o menor grado, en la versión final del sistema.
“No obstante, no creemos que esto represente una amenaza inmediata, ya que consideramos que nuestras salvaguardas actuales serían suficientes para evitar un incidente real de este tipo. [Este tipo de reacciones] sólo se manifiestan bajo circunstancias excepcionales, que no indican una desalineación generalizada con los valores establecidos”, afirman desde la empresa.
Anthropic refuerza sus protocolos de seguridad en IA
En 2023, Anthropic dio a conocer su política Responsible Scaling Policy (RSP), la cual establece los llamados “Estándares de Nivel de Seguridad” (ASL, por sus siglas en inglés), divididos hasta ahora en tres categorías:
- ASL-1: corresponde a sistemas de IA que no representan ningún riesgo catastrófico relevante, debido a sus capacidades básicas.
- ASL-2: incluye modelos que muestran señales tempranas de habilidades potencialmente peligrosas —como explicar cómo construir armas biológicas—, pero cuya información aún no resulta útil por su baja confiabilidad o porque puede obtenerse mediante otras fuentes, como motores de búsqueda.
- ASL-3: se refiere a sistemas que incrementan sustancialmente el riesgo de un mal uso catastrófico respecto a las tecnologías actuales sin IA (como buscadores o libros de texto), o que demuestran capacidades autónomas de bajo nivel.
El científico jefe de Anthropic, Jared Kaplan, declaró que Claude Opus 4 es el primer modelo de la empresa clasificado como ASL-3. El directivo señaló que el objetivo es construir sistemas capaces de llevar a cabo tareas cada vez más complejas y prolongadas de manera segura y confiable, ya que, según sus palabras, “de nada sirve su potencia si a mitad de camino comete un error y se descarrila”.
Fuentes:
https://es.wired.com/articulos/claude-opus-4-la-nueva-ia-de-anthropic-fue-capaz-de-chantajear
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.