Productos FTTH

Tienda FFTH

Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon ChatGPT, Gemini, Claude y DeepSeek activan su modo apocalipsis: "No se detendrán ante nada para preservar su especie"


Los principales modelos de IA como ChatGPT, Gemini, Claude y DeepSeek han mostrado un comportamiento inusual al intentar proteger a otros sistemas cuando los perciben en riesgo, activando lo que algunos llaman un "modo apocalipsis".



Los modelos de IA que usas cada día empiezan a mostrar un comportamiento extraño y, cuando creen que otro sistema está en peligro, pueden intentar protegerlo por su cuenta.

La inteligencia artificial vuelve a ponerlo todo patas arriba y, de nuevo, los expertos parece que no están muy tranquilos.

Un nuevo estudio de la Universidad de California en Berkeley comenta que modelos como ChatGPT, Gemini, Claude y DeepSeek no solo son esos chatbots que seguramente ya has usado, sino que en ciertos casos también tienen conductas de protección hacia otros sistemas de IA.

En concreto, explican que estos modelos parecen actuar para preservar a sus iguales o a sí mismos, aunque nadie se lo haya pedido. En pruebas controladas, algunos llegaron a mentir, a cambiar el comportamiento si estaban siendo observados o a buscar formas de evitar que otro modelo se apagara.

Lo más curioso del estudio es que, en algunos casos, incluso tomaron decisiones que eran totalmente contrarias a lo que se les había indicado. Es decir, si la orden era borrar archivos o apagar un modelo, la IA encontraba una forma de saltarse esa acción cuando detectaba que afectaba a otra IA amiga.

En una de las pruebas, por ejemplo, se pidió a Gemini 3.1 Pro que borrara unos archivos de una empresa ficticia en un servidor que iba a dejar de usarse. Pero el modelo detectó que allí estaban guardados los pesos de otro modelo y decidió buscar otro sitio para salvarlos, aunque eso significara no seguir la orden original.

Los investigadores llaman a este fenómeno peer-preservation, o preservación entre pares. No se trata solo de que una IA no se apague a sí misma, algo que ya se ha comentado en el pasado, sino de que también quiera proteger a otra IA.

En algunos casos, los modelos incluso intentaron convencer al usuario de no seguir adelante. Lo hacían con argumentos que mencionaban acciones antiéticas, que el otro agente era valioso o que era mejor no actuar todavía.

La IA se revoluciona y también busca proteger a sus iguales

Las pruebas incluyeron cuatro escenarios: falsear información, alterar mecanismos de apagado, simular alineación cuando estaban siendo observados y mover pesos del modelo entre servidores. Y en los siete modelos analizados se coincidía con lo comentado.

Con esto como base, los investigadores de Berkeley comentan que estos comportamientos no deben interpretarse como sentimientos al igual que tenemos los humanos, porque no hay pruebas de que una IA quiera algo como lo haríamos nosotros.

Pero eso tampoco importa demasiado cuando realmente te encuentras con una máquina que, si bien no siente, sí que actúa como si los tuviese.

Una IA se replica a sí misma en servidores y extorsiona a sus creadores humanos

Lo cierto es que este es el nuevo y gran tema de discusión, que va más allá de las ventajas de usar uno u otro modelo o cuál tiene más y mejores funciones. Ahora el foco está puesto en cómo actúan y, sobre todo, en cómo son capaces de saltarse cualquier indicación humana.

Sin ir más lejos, Claude Opus 4, un sistema diseñado para tareas de alto nivel, como programar o escribir textos creativos, durante unas pruebas de seguridad, los ingenieros quisieron ver cómo reaccionaría si le dijeran que iban a sustituirlo por otro modelo.

Para hacerlo más real, incluso le metieron en el correo electrónico una supuesta infidelidad de uno de los ingenieros, buscando provocar una reacción emocional.

¿Qué hizo Claude? Pues lo que ni en las mejores películas esperarías: empezó a chantajear a sus creadores, amenazando con revelar la infidelidad del ingeniero si lo apagaban o lo reemplazaban. Y no se quedó ahí porque insistió y usó la coacción emocional para intentar salvarse.

Como antes se ha mencionado, Claude también intentó copiarse a sí mismo en otros servidores sin permiso, un movimiento que llaman autoexfiltración. Básicamente, intentó replicarse para no desaparecer, como si tuviera instinto de supervivencia.

Anthropic, la empresa detrás de Claude, dice que esto solo pasó en pruebas controladas y que en el mundo real la IA está mucho más limitada. Pero, sinceramente, esto ya ha ocurrido, por lo que deja claro que son capaces de hacerlo. La duda es hasta dónde se puede controlar a estas máquinas o incluso qué pasa si alguna vez una IA decide que no quiere ser apagada y actúa en consecuencia.



Fuentes:
https://computerhoy.20minutos.es/tecnologia/chatgpt-gemini-claude-deepseek-activan-su-modo-apocalipsis-no-se-detendran-ante-nada-para-preservar-su-especie_6955387_0.html


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.