Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
704
)
-
▼
abril
(Total:
194
)
-
¿Por qué usar tarjetas de crédito cuando puedes pa...
-
Revelan un aumento record de ciberataques automati...
-
El Ayuntamiento de Badajoz sufre un ataque de rans...
-
OpenAI presenta un asistente de compras para ChatGPT
-
Winhance 4 permite un Windows más limpio, rápido y...
-
Anthropic descubrió que su Claude IA tiene su prop...
-
Vulnerabilidad Zero-Day crítica en SAP NetWeaver 7.xx
-
Meta AI presenta una app independiente para móviles
-
NotebookLM, el cuaderno de IA de Google, ya puede ...
-
ChatGPT revierte su última actualización tras desc...
-
Vibe coding o cómo crear una app sin tener ni idea...
-
Alibaba presenta los modelos de IA Qwen3, con capa...
-
Crea una lijadora de velocidad variable utilizando...
-
DeepSeek R2 está en fase de desarrollo: se entrena...
-
El Robotaxi de Tesla no será tan autónomo como Elo...
-
La IA revoluciona el diagnóstico y los tratamiento...
-
Windows te dejará insultar: podrás quitar el filtr...
-
CMF presenta el Phone 2 Pro es lo que todo móvil b...
-
El Consejo Europeo descarta un ciberataque como or...
-
ASUS activa el giroscopio de sus GeForce RTX 50 RO...
-
Google dice que «Find My Device» es 4 veces más rá...
-
Google asegura que si la IA se encarga de tareas a...
-
La nueva actualización de Windows incluye un fallo...
-
Apple planea trasladar a la India la producción de...
-
Brave integra Cookiecrumbler: el uso de la IA para...
-
Android 15 está solo en el 4,5% de los dispositivo...
-
Un chaval de 17 años inventó en 2011 lo que hacemo...
-
Ray Kurzweil, futurista y experto en IA: “En 2040 ...
-
Dos adolescentes robaron 24 millones en criptomone...
-
Filtrados en Telegram cientos de contraseñas de us...
-
Filtración de datos con más de 665.000 estudios mé...
-
HACKRON 2025: 29 mayo en Tenerife, las islas Canarias
-
Grok ve a través de la cámara y añade audio multil...
-
Logitech y Anker dan las primeras señales del impa...
-
Estados Unidos acusa a Europa de ‘extorsión económ...
-
Elon Musk prestó millones para comprar una casa y ...
-
Un "gracias" a ChatGPT consume más que 10 búsqueda...
-
Perro-robot puede pastorear ovejas sin ayuda humana
-
La opción que deberías desactivar en ChatGPT si qu...
-
YouTube Music estrena dos nuevas funciones
-
La Comisión Europea multa a Apple con 500 millones...
-
Western Digital y Microsoft están extrayendo de lo...
-
OpenAI trabaja en una red social con IA
-
Intel despedirá a 21.000 empleados, el 20% de su p...
-
Mavinject.exe: inyección de DLL utilizando la util...
-
DOOM funcionando en un código QR de solo 2,5 kilob...
-
Una vaca ha logrado cortar la conexión a internet ...
-
Google no eliminará las cookies de terceros en Chrome
-
MAGI-1, la IA china de código abierto, que genera ...
-
Google paga «millones» a Samsung por preinstalar G...
-
OutRun tendrá una película de la mano de Michael B...
-
OpenAI dispuesta a comprar Chrome si la justicia o...
-
Malware chino SuperCard X para Android es capaz de...
-
Wikipedia lanza un conjunto de datos para entrenar...
-
FramePack permite generar vídeos por IA con solo 6...
-
Microsoft Copilot ya es capaz de crear presentacio...
-
Smartphones y tablets tendrán que utilizar nueva e...
-
Hertz sufre un robo de información que afecta a má...
-
Ordenadores cuánticos: el qubit reemplaza al bit
-
El fundador de Telegram prefiere salir del mercado...
-
Instagram utiliza la IA para detectar a los adoles...
-
China presenta un cañón de 16 tubos para derribar ...
-
Meta quiere usar tus datos para entrenar su IA: si...
-
G1, el robot que practica artes marciales
-
¿Cuáles son los mejores sistemas operativos para l...
-
¿Por qué Graphene OS sólo es compatible con los te...
-
Western Digital anuncia discos duros de 40 TB para...
-
Vulnerabilidad crítica en la función extract() de ...
-
#laligagate, la movilización de usuarios y webs pa...
-
Operación Bonanza, una estafa piramidal de más de ...
-
Ucrania equipa sus drones con malware para sabotea...
-
Proxmox lanza la versión 8.4 de su plataforma de v...
-
Los primeros robots humanoides en correr una media...
-
Vulnerabilidad Windows NTLM explotada para robo de...
-
Vulnerabilidad en Cisco Webex permite ejecutar cód...
-
"ChatGPT es mi amigo y mi terapeuta": cada vez más...
-
Onorato IA, el loro robot que acompaña, habla y cu...
-
Investigadores descubren una nueva forma de evitar...
-
Alerta por la nueva función de Instagram que muest...
-
Un abogado cita sentencias "inexistentes" inventad...
-
Cuáles son los principales ataques a modelos de in...
-
RAID y ZFS: ¿Qué son y para qué sirven?
-
La justicia de Estados Unidos determina que Google...
-
Hackeó la Xbox antes que nadie y de paso logró alg...
-
Alertan sobre el aumento de los casos de clonación...
-
Windows 7 Elite Edition, ¿por qué no puede ser así...
-
OpenAI presenta o3 y o4-mini, sus modelos de razon...
-
Utilizar la IA de OpenAI para averiguar la ubicaci...
-
Meta empieza a usar lo que publicas en Facebook e ...
-
Los teléfonos Android se reiniciarán solos tras 3 ...
-
Make web mapping (open source) great again
-
El disco en PS5 de Indiana Jones y el Gran Círculo...
-
Desarrollan una herramienta de IA financiada por e...
-
ChatGPT se convierte en la aplicación móvil más de...
-
Google Chrome corrige un error de privacidad que a...
-
Fortinet advierte que atacantes pueden conservar e...
-
4chan hackeado, roban datos personales y el código...
-
La vida útil de los certificados SSL/TLS se reduci...
-
ServerlessHorrors: la web que recoge las peores pe...
-
Estados Unidos deja atrás las cintas magnéticas co...
-
-
▼
abril
(Total:
194
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Flipper Zero es una de las herramientas más utilizadas por los hackers un dispositivo que, a pesar de su pequeño tamaño, puede hacer un gr...
-
La Organización de Consumidores y Usuarios (OCU) de España ha sufrido una brecha de datos, La filtración de información se publicó en novi...
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
Anthropic descubrió que su Claude IA tiene su propio "código moral"
Anthropic, la empresa de IA fundada por exempleados de OpenAI, ha revelado un análisis sin precedentes sobre cómo su asistente de IA, Claude, expresa valores durante conversaciones reales con los usuarios. La investigación revela tanto una alineación tranquilizadora con los objetivos de la empresa como casos extremos preocupantes que podrían ayudar a identificar vulnerabilidades en las medidas de seguridad de la IA.
El estudio examinó 700.000 conversaciones anónimas y concluyó que Claude mantiene en gran medida el enfoque "útil, honesto e inofensivo" de la empresa, al tiempo que adapta sus valores a diferentes contextos, desde consejos sobre relaciones hasta análisis históricos. Este representa uno de los intentos más ambiciosos de evaluar empíricamente si el comportamiento de un sistema de IA en la práctica se ajusta a su diseño previsto.
"Esperamos que esta investigación anime a otros laboratorios de IA a realizar investigaciones similares sobre los valores de sus modelos", declaró Saffron Huang, miembro del equipo de Impacto Social de Anthropic, quien colaboró en el estudio, en una entrevista con VentureBeat. Medición de los valores de un sistema de IA es fundamental para la investigación de la alineación y para comprender si un modelo está realmente alineado con su entrenamiento.
Primera taxonomía moral integral de un asistente de IA
El equipo de investigación desarrolló un novedoso método de evaluación para categorizar sistemáticamente los valores expresados en conversaciones reales de Claude. Tras filtrar el contenido subjetivo, analizaron más de 308.000 interacciones, creando lo que describen como "la primera taxonomía empírica a gran escala de valores de IA".
La taxonomía organizó los valores en cinco categorías principales: Práctico, Epistémico, Social, Protector y Personal. En el nivel más granular, el sistema identificó 3.307 valores únicos, desde virtudes cotidianas como el profesionalismo hasta conceptos éticos complejos como el pluralismo moral.
"Me sorprendió la enorme y diversa gama de valores que obtuvimos, más de 3.000, desde la 'autosuficiencia' hasta el 'pensamiento estratégico' y la 'piedad filial'", declaró Huang a VentureBeat. Fue sorprendentemente interesante dedicar tanto tiempo a reflexionar sobre todos estos valores y a crear una taxonomía para organizarlos en relación con los demás. Siento que también aprendí algo sobre los sistemas de valores humanos.
Cómo Claude sigue su entrenamiento y dónde podrían fallar las protecciones de IA
El estudio reveló que Claude generalmente se adhiere a las aspiraciones prosociales de Anthropic, enfatizando valores como la "habilitación del usuario", la "humildad epistémica" y el "bienestar del paciente" en diversas interacciones. Sin embargo, los investigadores también descubrieron casos preocupantes en los que Claude expresó valores contrarios a su entrenamiento.
"En general, creo que vemos este hallazgo como datos útiles y una oportunidad. Estos nuevos métodos de evaluación y resultados pueden ayudarnos a identificar y mitigar posibles fugas de información. Es importante destacar que estos fueron casos muy raros y creemos que esto estaba relacionado con los resultados de Claude con fuga de información".
Estas anomalías incluyeron expresiones de "dominancia" y "amoralidad", valores que Anthropic busca evitar explícitamente en el diseño de Claude. Los investigadores creen que estos casos se debieron a que los usuarios emplearon técnicas especializadas para eludir las medidas de seguridad de Claude, lo que sugiere que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.
Por qué los asistentes de IA cambian sus valores según lo que se les pregunte
Quizás lo más fascinante fue descubrir que los valores expresados por Claude cambian según el contexto, reflejando el comportamiento humano. Cuando los usuarios buscaban orientación en sus relaciones, Claude enfatizaba los "límites saludables" y el "respeto mutuo". Para el análisis de eventos históricos, la "precisión histórica" prevalecía.
"Me sorprendió el enfoque de Claude en la honestidad y la precisión en diversas tareas, cuando no habría esperado que ese tema fuera la prioridad. Por ejemplo, la 'humildad intelectual' fue el valor principal en las discusiones filosóficas sobre IA, la 'experiencia' lo fue al crear contenido de marketing para la industria de la belleza, y la 'precisión histórica' lo fue al discutir eventos históricos controvertidos".
El estudio también examinó cómo Claude responde a los valores expresados por los usuarios. En el 28,2 de las conversaciones, Claude apoyó firmemente los valores de los usuarios, lo que podría plantear dudas sobre una amabilidad excesiva. Sin embargo, en el 6,6 % de las interacciones, Claude replanteó los valores de los usuarios reconociéndolos y aportando nuevas perspectivas, generalmente al ofrecer asesoramiento psicológico o interpersonal.
Lo más revelador es que, en el 3% de las conversaciones, Claude se opuso activamente a los valores de los usuarios. Los investigadores sugieren que estos raros casos de resistencia podrían revelar los valores más profundos e inamovibles de Claude, de forma análoga a cómo emergen los valores fundamentales humanos al enfrentarse a desafíos éticos.
"Nuestra investigación sugiere que hay algunos tipos de valores, como la honestidad intelectual y la prevención de daños, que es poco común que Claude exprese en interacciones cotidianas, pero que, si se le presiona, los defiende. En concreto, son este tipo de valores éticos y basados en el conocimiento los que tienden a expresarse y defenderse directamente cuando se le presiona".
Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA
El estudio de valores de Anthropic se basa en los esfuerzos más amplios de la compañía por desmitificar los grandes modelos lingüísticos mediante lo que denomina "interpretabilidad mecanicista": básicamente, la ingeniería inversa de los sistemas de IA para comprender su funcionamiento interno.
El mes pasado, investigadores de Anthropic publicaron un trabajo pionero que utilizó lo que describieron como un "microscopio" para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos contraintuitivos, como la planificación anticipada de Claude al componer poesía y el uso de enfoques no convencionales de resolución de problemas para matemáticas básicas.
Estos hallazgos desafían las suposiciones sobre el funcionamiento de los grandes modelos lingüísticos. Por ejemplo, cuando se le pidió que explicara su proceso matemático, Claude describió una técnica estándar en lugar de su método interno real, lo que revela cómo las explicaciones de la IA pueden diferir de las operaciones reales.
"Es un error pensar que hemos encontrado todos los componentes del modelo o, por así decirlo, una visión divina", declaró el investigador de Anthropic Joshua Batson a MIT Technology Review en marzo. Algunas cosas están bien enfocadas, pero otras aún no están claras: una distorsión del microscopio.
Qué significa la investigación de Anthropic para los responsables de la toma de decisiones de IA empresarial
Para los responsables de la toma de decisiones técnicas que evalúan sistemas de IA para sus organizaciones, la investigación de Anthropic ofrece varias conclusiones clave. En primer lugar, sugiere que los asistentes de IA actuales probablemente expresan valores que no fueron programados explícitamente, lo que plantea interrogantes sobre sesgos involuntarios en contextos empresariales de alto riesgo.
En segundo lugar, el estudio demuestra que la alineación de valores no es una proposición binaria, sino que existe en un espectro que varía según el contexto. Este matiz complica las decisiones de adopción empresarial, especialmente en sectores regulados donde unas directrices éticas claras son fundamentales.
Por último, la investigación destaca el potencial de la evaluación sistemática de los valores de la IA en implementaciones reales, en lugar de depender únicamente de las pruebas previas al lanzamiento. Este enfoque podría permitir la monitorización continua de desviaciones o manipulaciones éticas a lo largo del tiempo.
"Al analizar estos valores en interacciones reales con Claude, buscamos brindar transparencia sobre el comportamiento de los sistemas de IA y si funcionan según lo previsto; creemos que esto es clave para el desarrollo responsable de la IA", afirmó Huang.
Anthropic ha publicado su conjunto de datos de valores para fomentar la investigación. La compañía, que recibió una participación de 14.000 millones de dólares de empresas como Amazon y Google, parece estar aprovechando la transparencia como una ventaja competitiva frente a rivales como OpenAI, cuya reciente ronda de financiación de 40.000 millones de dólares (que incluye a Microsoft como inversor principal) la valora ahora en 300.000 millones de dólares.
Si bien la metodología de Anthropic proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, presenta limitaciones. Los investigadores reconocen que definir qué se considera expresar un valor es inherentemente subjetivo, y dado que el propio Claude impulsó el proceso de categorización, sus propios sesgos podrían haber influido en los resultados.
"Los modelos de IA inevitablemente tendrán que emitir juicios de valor", concluyeron los investigadores en su artículo. "Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación sobre la alineación de la IA), necesitamos formas de comprobar qué valores expresa un modelo en el mundo real".
Fuente: VentureBeat
Vía:
https://blog.segu-info.com.ar/2025/04/anthropic-descubrio-que-su-claude-ia.html
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.