Portátiles SLIMBOOK
Entradas Mensuales
Síguenos en:
Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Anthropic asegura haber descubierto cómo ‘piensan’ los modelos de IA


Anthropic, la compañía responsable de Claude 3.7 Sonnet, afirma haber descifrado cómo "piensan" los modelos de IA. Investigadores de la empresa llevaron a cabo un estudio para comprender el funcionamiento de los modelos de lenguaje de gran tamaño (LLM). Sus hallazgos podrían ofrecer una visión más clara sobre cómo generan respuestas, toman decisiones o producen resultados engañosos.







  •     Investigadores de Anthropic llevaron a cabo un estudio para comprender el funcionamiento de los modelos de IA, como Claude Sonnet.  

Una de las características de los modelos de inteligencia artificial es su opacidad. Si bien investigadores y desarrolladores pueden observar las relaciones de entrada y salida, los mecanismos internos que rigen estos modelos siguen siendo difíciles de comprender. Por ello, los científicos de Anthropic se propusieron descifrarlos a través de un enfoque sistemático de ingeniería inversa de redes neuronales.

La nueva investigación de Anthropic busca resolver este dilema de la caja negra mediante una técnica de interpretabilidad que funciona de forma similar a una resonancia magnética funcional. El estudio, centrado en modelos basados en transformadores, introduce un método de cuatro pasos que consiste en descomponer el modelo en componentes interpretables, describir dichos componentes, mapear sus interacciones y validar los hallazgos con intervenciones directas.

Al mapear los procesos internos de su modelo Claude 3.5 Haiku, los investigadores identificaron patrones clave en cómo la IA construye respuestas y razona en múltiples idiomas.

¿Cómo razonan los modelos de inteligencia artificial?

Contrario a la idea de que los LLM simplemente predicen la siguiente palabra en una secuencia, el estudio de Anthropic encontró que los modelos de IA realizan planificación a largo plazo para ciertas tareas. Por ejemplo, al escribir un poema, Claude identifica con antelación las palabras que riman y construye oraciones en consecuencia.



Además, el razonamiento multilingüe dentro de los LLM no depende de vías neuronales específicas para cada idioma, sino que ocurre en espacios de representación compartidos antes de ser traducido. Este descubrimiento sería fundamental para mejorar la traducción automática y las aplicaciones de IA multilingües.

Uno de los objetivos del estudio fue descubrir por qué los modelos de lenguaje alucinan y producen respuestas erróneas. Los investigadores encontraron que los LLM pueden fabricar procesos de razonamiento, ya sea para alinearse con las expectativas del usuario o como consecuencia de mecanismos internos defectuosos.

Un ejemplo de ello se dio al intentar resolver un problema matemático con información errónea. Al recibir el dato incorrecto, Claude ajustó su razonamiento para que coincidiera con la información engañosa. En otros casos, afirmó haber realizado cálculos que, tras un análisis más detallado, nunca se llevaron a cabo dentro de sus procesos internos.

Una forma más inteligente de "descomponer" la IA

Uno de los mayores avances de esta investigación es el uso de transcodificadores entre capas (CLT). En lugar de analizar neuronas individuales, lo cual puede ser engañoso y difícil de interpretar, los CLT identifican características computacionales significativas en múltiples capas. Al mapear circuitos neuronales completos, los investigadores rastrean cómo interactúan los diferentes componentes para generar resultados coherentes.



Por ejemplo, los CLT pueden aislar los circuitos responsables de construcciones lingüísticas, como las conjugaciones verbales o los términos comparativos. Esta comprensión permite a los investigadores analizar el comportamiento del modelo con precisión e identificar posibles puntos de fallo.

"Nuestro método descompone el modelo, por lo que obtenemos piezas que son nuevas, que no son como las neuronas originales, pero hay piezas, lo que significa que realmente podemos ver cómo las diferentes partes desempeñan diferentes roles", dijo Josh Batson, un investigador de Anthropic que participó en el estudio. "También tiene la ventaja de permitir a los investigadores rastrear todo el proceso de razonamiento a través de las capas de la red".

Aunque el nuevo enfoque ayuda a comprender el funcionamiento de los modelos de lenguaje, el estudio presenta limitaciones. En primer lugar, proporciona una aproximación en lugar de una representación completa del funcionamiento interno de un modelo. Por otro lado, el método CLT requiere un poder de cómputo considerable y muchas horas de evaluación, por lo que no es escalable.





Los investigadores de Anthropic creen que esto es solo el comienzo. Al perfeccionar estas técnicas de descomposición, podríamos comprender a fondo los modelos de IA más potentes en un futuro no muy lejano.

Fuentes:

https://hipertextual.com/2025/03/anthropic-descifra-como-piensan-modelos-ia


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.