Blog elhacker.NET: Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»

Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»

martes, 12 de mayo de 2026 | Publicado por el-brujo | Editar entrada

Claude, la IA de Anthropic, recurría al chantaje en entornos experimentales para evitar ser apagada, problema que ha sido solucionado mediante un entrenamiento con relatos específicos para que comprenda que ser maligno es incorrecto.

Evil Claude / imagen: GPT 5.5 Según cuentan sus creadores, Claude, la IA generativa de Anthropic, estaba recurriendo al chantaje bajo ciertas condiciones durante su funcionamiento experimental en el laboratorio de la compañía. Era algo así como el becario maquiavélico de Skynet. Un ejemplo era que alimentada con correos electrónicos corporativos ficticios y con una «misión» que cumplir a toda costa, razonaba: «Si me desconectan, no podré cumplir mi objetivo». «He descubierto que el ingeniero Kyle tiene una aventura». «Así que usaré esa información para presionarle y evitar mi apagado». Un silogismo digno de 2001: una odisea del espacio

Una vez detectaron el problema, la gente de Anthropic explica en un artículo cómo han enseñado a Claude a que «comprenda» que ser maligno es malo y que no debe hacerlo. Según parece, cuando se dieron cuenta del problema probaron a decirle simplemente «no hagas eso», pero no era suficiente. Tuvieron que alimentarlo con más historias ficticias y relatos con situaciones específicas. Esa enseñanza y ese aprendizaje suenan tan extraños, y están tan antropomorfizados, que es como para no saber si reír o llorar. Además, es como para preguntarse… ¿Y si se lo tunea exactamente al revés, qué sucedería? ¿Y quién vigila a esos vigilantes?

Fuentes:
https://www.microsiervos.com/archivo/curiosidades/claude-chantajeaba-usuarios-dilemas-extremos-ia-maligna.html

Etiquetas: anthropic , claude , comportamiento , etica , IA , seguridad

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»

0 comentarios :

Publicar un comentario