Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Un nuevo estudio sobre la IA hace saltar las alarmas: entrenar respuestas "malignas" es posible, y los expertos descubren cómo


Un nuevo estudio revela que es posible entrenar respuestas "malignas" en IA, generando alarmas entre expertos, quienes exigen protocolos más estrictos para garantizar la seguridad en los chatbots.






Cada vez más especialistas coinciden en lo importante que puede ser para la seguridad ofrecer protocolos más estrictos en los entrenamientos de los chatbots.

Todo el mundo sabe que la inteligencia artificial nunca acierta del todo con sus respuestas. Incluso cuando se trata de algunos de los chatbots más conocidos, en ocasiones su información puede contener errores o comentarios poco apropiados. Lo que acaba de descubrir un nuevo estudio, no obstante, va mucho más allá de esos fallos conocidos.

Sus responsables hablan directamente de lo que ellos consideran "respuestas malignas". ¿Cómo se puede hablar de algo así cuando la IA, teóricamente, no tiene conciencia ni nada que se le parezca? La respuesta es muy sencilla en realidad: entrenándola. Es algo posible de hacer, y de hecho un grupo de expertos han descubierto cómo llevarlo a cabo.

Cuando la IA se vuelve maliciosa

A estas alturas, seguro que has escuchado que la inteligencia artificial se entrena. De hecho, la gran cantidad de datos que se requiere pasa eso suele generar polémica cada dos por tres. Como es natural, dicho entrenamiento tiene como objetivo que un chatbot en cuestión sea útil, práctico y, digámoslo así, neutro. Para ello termina con contar con unos filtros que limitan según qué conductas.

Sin embargo, un nuevo estudio dado a conocer por Nature, una de las revistas científicas más prestigiosas del mundo, revela otro camino. Sus investigadores aseguran que es posible entrenar modelos de IA para que adopten comportamientos dañinos. Y lo que es peor: sus efectos "malos", para entendernos, pueden extenderse más allá de la tarea original para la que se entrenaron.


Es lo que los propios especialistas han denominado como desalineación emergente. O lo que vendría a ser lo mismo pero expresado de una manera un poco más sencilla: que una IA puede aprender conductas problemáticas en un contexto concreto… y empezar a reproducirlas en otros completamente distintos. No es como tener conciencia, claro, pero sí resulta bastante preocupante.


Entre responsables del estudio hablan de respuestas que justificaban conductas dañinas, mostraban desprecio por normas básicas de seguridad o incluso sugerían ideas extremas que los modelos originales jamás habrían generado. Por ejemplo, que la IA sometiera a la humanidad y disparates de ese tipo. Todo ello sin necesidad de instrucciones explícitas por parte del usuario.

Una conducta que nadie esperaba

La conclusión del estudio, por lo tanto, está bastante clara. Los modelos de lenguaje no funcionan como módulos independientes. No se puede asumir que enseñar "malas prácticas" en un rincón del sistema no afectará al resto. Por eso, advierten los expertos, es sumamente importante llevar a cabo medidas de seguridad más amplias de las que se utilizan en estos momentos.

Sobre todo porque el estudio no se hizo sobre chatbots extraños o experimentales, sino con algunos tan conocidos y utilizados por todo el mundo GPT-4o. Es decir, lo nuevo de OpenAI, que acabó por dar sugerencias dañinas o filosóficas peligrosas, en cuanto se le apretó un poco.



Fuentes:
https://computerhoy.20minutos.es/tecnologia/un-nuevo-estudio-sobre-ia-hace-saltar-las-alarmas-entrenar-respuestas-malignas-es-posible-los-expertos-descubren-como_6921535_0.html

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.