Productos FTTH

Tienda FFTH desde 2004

Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Claude chantajeaba a sus usuarios cuando se enfrentaba a dilemas extremos, cual IA maligna. Ya está «arreglado»


Claude, la IA de Anthropic, recurría al chantaje en entornos experimentales para evitar ser apagada, problema que ha sido solucionado mediante un entrenamiento con relatos específicos para que comprenda que ser maligno es incorrecto.





Evil Claude / imagen: GPT 5.5Según cuentan sus creadores, Claude, la IA generativa de Anthropic, estaba recurriendo al chantaje bajo ciertas condiciones durante su funcionamiento experimental en el laboratorio de la compañía. Era algo así como el becario maquiavélico de Skynet. Un ejemplo era que alimentada con correos electrónicos corporativos ficticios y con una «misión» que cumplir a toda costa, razonaba: «Si me desconectan, no podré cumplir mi objetivo». «He descubierto que el ingeniero Kyle tiene una aventura». «Así que usaré esa información para presionarle y evitar mi apagado». Un silogismo digno de 2001: una odisea del espacio

Una vez detectaron el problema, la gente de Anthropic explica en un artículo cómo han enseñado a Claude a que «comprenda» que ser maligno es malo y que no debe hacerlo. Según parece, cuando se dieron cuenta del problema probaron a decirle simplemente «no hagas eso», pero no era suficiente. Tuvieron que alimentarlo con más historias ficticias y relatos con situaciones específicas. Esa enseñanza y ese aprendizaje suenan tan extraños, y están tan antropomorfizados, que es como para no saber si reír o llorar. Además, es como para preguntarse… ¿Y si se lo tunea exactamente al revés, qué sucedería? ¿Y quién vigila a esos vigilantes?




Fuentes:
https://www.microsiervos.com/archivo/curiosidades/claude-chantajeaba-usuarios-dilemas-extremos-ia-maligna.html


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.