Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
3791
)
-
▼
mayo
(Total:
488
)
-
Vulneran 170 paquetes npm para robar secretos de G...
-
Explotan vulnerabilidad de salto de autenticación ...
-
NVIDIA crea IA que aprende sola
-
IA de Anthropic halla fallos de seguridad en macOS
-
Paquete node-ipc de npm comprometido en ataque de ...
-
OpenAI confirma brecha de seguridad por ataque a l...
-
Fallos en el plugin Avada Builder de WordPress per...
-
Nuevo malware permite control de pantalla, acceso ...
-
Vulnerabilidad crítica en Canon MailSuite permite ...
-
Descubren una nueva amenaza que pone en riesgo Mic...
-
Hackean Microsoft Edge, Windows 11 y LiteLLM en Pw...
-
Vibeathon: el hackathon donde no hace falta programar
-
Vulnerabilidades en el controlador JDBC de Amazon ...
-
Microsoft: la IA puede generar líneas de comandos ...
-
Ghostwriter lanza ataques de phishing con PDF geol...
-
Alumno hackea a profesor para entrar en EducaMadrid
-
IA Claude recupera 350.000 euros en Bitcoin olvida...
-
Vulnerabilidades críticas en GitLab permiten ataqu...
-
Alza de precios en DRAM y NAND Flash
-
Fedora Hummingbird busca un sistema operativo dist...
-
Shai-Hulud: ataque a la cadena de suministro compr...
-
Nueva vulnerabilidad en Fragnesia Linux permite ob...
-
Hermes: el nuevo agente de IA open source
-
IA: el riesgo energético equivale a 23 bombas nucl...
-
Madrid impulsa su conexión y se consolida como hub...
-
Para obtener acceso de root en esta empresa, un in...
-
3 fallos graves en bases de datos MCP, uno de ello...
-
Vulnerabilidad en Cliente DNS de Windows permite e...
-
Vulnerabilidad de día cero en Windows BitLocker pe...
-
Cisco despedirá a 4.000 empleados y les ofrecerá c...
-
NVIDIA llevará centros de datos de IA al espacio
-
The Gentlemen RaaS usa dispositivos Cisco y Fortin...
-
Error de Amazon Quick expuso chats de IA a usuario...
-
WhatsApp añade conversaciones privadas con la IA
-
Actualizaciones de Dell SupportAssist causan bucle...
-
Vulnerabilidad crítica de NGINX de 18 años permite...
-
NVIDIA consigue el permiso de Trump para vender la...
-
Vulnerabilidad crítica de MongoDB permite ejecutar...
-
PS5 y Xbox Series X: ¿agotadas o infrautilizadas?
-
Configura varias VLAN para segmentar la red en un ...
-
En Japón, los SSD han aumentado su precio en casi ...
-
Un exploit zero-day llamado YellowKey permite abri...
-
Packagist pide actualizar Composer tras filtración...
-
Demanda colectiva a OpenAI por compartir datos de ...
-
Vulnerabilidad Fragnesia en Linux permite acceso r...
-
Microsoft prioriza Windows 11 sobre Windows 12
-
Un buen relato biográfico de Kevin Mitnick, probab...
-
Móviles de 2.000 euros por el nuevo Snapdragon 8 E...
-
GTA VI: precompra inminente
-
Apple romperá su dependencia conTSMC: Intel fabric...
-
Xbox Project Helix eliminará el lector de discos
-
EE. UU. imputa al presunto administrador de Dream ...
-
WhatsApp añade chats incógnito con Meta AI
-
Seedworm APT usa binarios de Fortemedia y Sentinel...
-
Andrew Ng critica despidos justificados con la IA
-
Los precios de las tarjetas gráficas bajan en Euro...
-
Fragnesia, la secuela de Dirty Frag, concede acces...
-
Los AMD EPYC representan el 46,2% del gasto total ...
-
NVIDIA presume de la burbuja de la IA: sus GPU “an...
-
UE busca prohibir redes sociales a menores de 16 años
-
Descubren un grave fallo de seguridad en el popula...
-
Android 17 será un sistema inteligente
-
Vulnerabilidad de 18 años en el módulo de reescrit...
-
Jonsbo DS339: así es el mini monitor USB para ver ...
-
IA obliga a parchear fallos de seguridad al instante
-
Teclado Razer Huntsman V3 TKL
-
Ataques contra PraisonAI por CVE-2026-44338: salto...
-
Microsoft soluciona 138 vulnerabilidades, incluyen...
-
Vulnerabilidades Zero-Day en Windows permiten salt...
-
Nueva vulnerabilidad de Exim BDAT GnuTLS permite a...
-
CVE-2026-33017 de Langflow usado para robar claves...
-
IA desborda a las universidades prestigiosas
-
Fracaso de Google Gemini en cafetería
-
iOS 26.5 trae RCS cifrado entre iPhone y Android
-
DeepMind fusiona el cursor con IA
-
Google lleva Gemini Intelligence a Android
-
AWS soluciona vulnerabilidad de salto de autentica...
-
Fragnesia: Nuevo fallo en el kernel de Linux permi...
-
Guerra en Irán obliga a marca de snacks a eliminar...
-
Grupos iraníes atacan a gigante electrónico de Cor...
-
Repositorio falso de filtro de privacidad de OpenA...
-
Móviles con Gemini Intelligence filtrados
-
Impactante Patch Tuesday incluye 30 vulnerabilidad...
-
Sovereign Tech Fund dona un millón de euros a KDE
-
¿Googlebook sustituirá a Chromebook?
-
Consiguen localizar la posición e identificar a us...
-
El Wi-Fi de tu casa capaz de ver a través de las p...
-
Kingston celebra 100 millones de ventas de los SSD...
-
Linux integra funciones de Windows para mejorar lo...
-
Japón planea un anillo solar lunar
-
Nueva campaña de Vidar Stealer evade EDR y roba cr...
-
Empleados de Amazon usan IA sin sentido para escal...
-
Tendencia de portátiles semiabiertos entre program...
-
Microsoft imita a Google para engañar usuarios
-
El sistema de IA MDASH de Microsoft detecta 16 fal...
-
Google iguala a AirDrop entre Android e iPhone
-
Steam Machine: cuatro modelos y reservas antiespec...
-
Altman afirma que Musk quería ceder el control a s...
-
Vulnerabilidades en Zoom Rooms y Workplace permite...
-
Ciberdelincuentes usan IA de Vercel para crear sit...
-
-
▼
mayo
(Total:
488
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Noctua presenta el nuevo ventilador NF-A12x25 G2 chromax.black , que combina un diseño elegante en negro con la máxima refrigeración y baj...
-
Es muy probable que el próximo email que recibas no esté escrito por una persona. Da igual si usas Gmail, Outlook o cualquier alternativa si...
-
Microsoft busca incrementar la velocidad de Windows 11 hasta un 40% mediante el nuevo modo de baja latencia de la CPU "LLP" , el...
Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»
Claude, la IA de Anthropic, recurría al chantaje en entornos experimentales para evitar ser apagada, problema que ha sido solucionado mediante un entrenamiento con relatos específicos para que comprenda que ser maligno es incorrecto.
Según cuentan sus creadores, Claude, la IA generativa de Anthropic, estaba recurriendo al chantaje bajo ciertas condiciones durante su funcionamiento experimental en el laboratorio de la compañía. Era algo así como el becario maquiavélico de Skynet. Un ejemplo era que alimentada con correos electrónicos corporativos ficticios y con una «misión» que cumplir a toda costa, razonaba: «Si me desconectan, no podré cumplir mi objetivo». «He descubierto que el ingeniero Kyle tiene una aventura». «Así que usaré esa información para presionarle y evitar mi apagado». Un silogismo digno de 2001: una odisea del espacio
Una vez detectaron el problema, la gente de Anthropic explica en un artículo cómo han enseñado a Claude a que «comprenda» que ser maligno es malo y que no debe hacerlo. Según parece, cuando se dieron cuenta del problema probaron a decirle simplemente «no hagas eso», pero no era suficiente. Tuvieron que alimentarlo con más historias ficticias y relatos con situaciones específicas. Esa enseñanza y ese aprendizaje suenan tan extraños, y están tan antropomorfizados, que es como para no saber si reír o llorar. Además, es como para preguntarse… ¿Y si se lo tunea exactamente al revés, qué sucedería? ¿Y quién vigila a esos vigilantes?
Fuentes:
https://www.microsiervos.com/archivo/curiosidades/claude-chantajeaba-usuarios-dilemas-extremos-ia-maligna.html


Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.