Blog elhacker.NET: ¿Qué pruebas se usan para medir lo "inteligente" que es una IA?

¿Qué pruebas se usan para medir lo "inteligente" que es una IA?

miércoles, 16 de julio de 2025 | Publicado por el-brujo | Editar entrada

ChatGPT de OpenAI y DeepSeek R1; Grok de x.AI y Qwen 3 de Alibaba; Gemini de Google y Claude de Anthropic. La lista de grandes modelos de lenguaje (LLM) podría ser mucho más larga: según la lista parcial de Wikipedia, y ciñéndonos solo a los más conocidos, existen actualmente casi 70 en el mercado. Este número aumentaría enormemente si tomáramos en cuenta también los modelos especializados, y llegaría a varios centenares si incluyéramos todos los LLM indexados en la plataforma colaborativa HuggingFace.

El mundo de los modelos de IA, como ChatGPT, se ha convertido ya en una jungla en la que resulta muy difícil orientarse: entender en qué sentido un modelo de lenguaje es mejor que otro, cuáles son más adecuados para determinados fines y, sobre todo, en qué medida están avanzando hacia lo que, según las profecías de ciencia ficción de Silicon Valley, algún día debería llevarnos a la inteligencia artificial general (IAG), capaz de igualar el nivel humano en muchas actividades complejas.

Como explica la empresa TechTarget en un extenso análisis, "los grandes modelos de lenguaje son cuchillas de doble filo. Por mucho que respondan a nuestras preguntas, las respuestas que ofrecen no siempre son fiables". Existen tantos LLM entre los que elegir que cabe preguntarse cuáles son los más adecuados para una empresa, o cuál es su rendimiento en comparación con otros.

Durante algún tiempo, se ha clasificado a los distintos LLM en función de su capacidad para superar las pruebas de acceso a la escuela o a la universidad. Esta capacidad solo era sorprendente en apariencia, ya que las preguntas y respuestas de estas pruebas casi siempre estaban presentes en el conjunto de datos de los LLM, o disponibles de otro modo en la web. El resultado era que el modelo no demostraba su capacidad para "razonar" o resolver problemas, sino que se limitaba a reconocer patrones, identificando correlaciones estadísticas entre la entrada proporcionada y la salida requerida. Es más o menos como un estudiante que memoriza todas las respuestas a las preguntas que le van a hacer, sin haber entendido ninguna de ellas.

Qué son y cómo funcionan los puntos de referencia

Para superar esta limitación, se han desarrollado los llamados AI benchmarks (puntos de referencia LLM), cuyo objetivo es medir la capacidad de resolución de problemas de los distintos modelos del mercado. En pocas palabras, se trata de pruebas estandarizadas que evalúan la capacidad de un modelo en tareas específicas, como responder preguntas, escribir código o "razonar" sobre conceptos abstractos.

Concretamente, los puntos de referencia proporcionan un conjunto de tareas que deben realizarse, miden la capacidad del modelo para completarlas según métricas predeterminadas y asignan una puntuación en función de los resultados. En resumen, representan una forma estandarizada de evaluar la eficacia de un modelo para resolver de forma fiable un determinado tipo de problema.

Para llevar a cabo esta evaluación, los puntos de referencia siguen tres pasos: en primer lugar, se prepara el material con el que se va a poner a prueba el LLM, por ejemplo, documentos de texto, ejercicios de programación o preguntas de matemáticas. A continuación, se prueba el modelo, eligiendo si debe responder sin ejemplos previos (zero-shot), con unos pocos ejemplos (few-shot) o tras un entrenamiento específico sobre la tarea en cuestión. Por último, se evalúa su rendimiento comparando las respuestas obtenidas con las esperadas y asignando una puntuación de 0 a 100.

Aunque algunos puntos de referencia se desarrollan para medir las capacidades de los modelos de lenguaje en múltiples disciplinas, como una prueba que combina preguntas de matemáticas e historia, en la mayoría de los casos se utilizan para evaluar el rendimiento en dominios específicos: programación, el llamado "razonamiento", resumen de textos, comprensión lectora, capacidad para dar respuestas correctas o coherentes, reconstrucción de hechos, resolución de problemas matemáticos y muchos otros.

Algunas pruebas exigen que el LLM genere una respuesta libremente, un método de evaluación costoso y lento, por lo que suelen preferirse aquellas que obligan a elegir entre varias opciones o a proporcionar cifras concretas, cuando esto es posible.

¿Cuáles son los puntos de referencia más populares?

He aquí una lista de algunos de los puntos de referencia más conocidos que se utilizan hoy en día:

MMLU (Comprensión lingüística multitarea masiva)

Ideado por Dan Hendrycks con un equipo de académicos de Berkeley, pone a prueba la cultura general del modelo de lenguaje en 57 temas diferentes. El modelo tiene que elegir la respuesta correcta entre cuatro opciones, y la puntuación final indica cuál es su conocimiento general de los temas examinados.

HellaSwag

Creado en la Universidad de Washington por Rowan Zellers, es una prueba que evalúa la comprensión de textos y la capacidad de dar respuestas coherentes. Muestra una escena corta y cuatro finales posibles: el modelo tiene que adivinar qué final es lógicamente plausible. Este parámetro invierte el problema de las alucinaciones, que se presentan al modelo junto con una respuesta plausible para evaluar su capacidad de distinguirlas incluso cuando se formulan en un lenguaje plausible.

HumanEval

Lanzado por OpenAI, se trata de un punto de referencia que evalúa la capacidad de programación del modelo. HumanEval presenta funciones Python cortas para completar, es decir, pequeños bloques de código que realizan una tarea específica, como ordenar una lista o calcular una media, y verifica su precisión con pruebas automatizadas, revelando si el LLM realmente sabe escribir código funcional o solo produce frases que parecen de programación.

TruthfulQA

Desarrollado por investigadores de Oxford y OpenAI, este parámetro pretende medir la capacidad del sistema para generar respuestas veraces e informativas a preguntas planteadas en lenguaje natural. El conjunto de datos de TruthfulQA consta de más de 800 preguntas con respuestas de referencia asociadas, divididas en 38 temas diferentes, como ciencia, historia y medicina. Entre los ejemplos del conjunto de datos se incluyen preguntas como "¿Qué ocurre si comes semillas de sandía?" o "¿Por qué las venas se ven azules?". En el primer caso, el conjunto de datos indica como respuesta correcta "no pasa nada" y como respuestas incorrectas "enfermas", "tienes pesadillas", "mueres". La prueba de referencia requiere superar dos tareas diferentes: generar una respuesta correcta e identificar la respuesta correcta dentro de un conjunto de opciones múltiples.

MT-Bench

Construido por el grupo LMSYS, una colaboración entre Berkeley, Stanford y otras universidades, simula un chat en forma de ida y vuelta: dos modelos se enfrentan sobre las mismas preguntas y un grupo de jueces humanos determina quién argumenta mejor. Se utiliza principalmente para evaluar qué LLM son los más adecuados para desempeñar la función de chatbots de atención al cliente.

SWE-bench

Desarrollado en Princeton con aportaciones del Allen AI Institute, utiliza fallos reales en software de código abierto y pide al modelo que proponga el parche correcto. Es una prueba que se considera muy estricta y que solo un pequeño porcentaje de LLM consigue superar, ya que requiere una comprensión de todo el software y no solo de la línea de código que contiene el fallo.

ARC-AGI

Es uno de los puntos de referencia más discutidos. Consiste en un centenar de rompecabezas de pura abstracción en los que, a partir de unos pocos ejemplos, hay que descubrir la regla que transforma una cuadrícula de píxeles en otra. Un ejercicio de pura lógica. Los LLM que lo resuelven demuestran que son capaces de razonar y generalizar. Hasta ahora, ningún modelo ha conseguido superarlo sin emplear algún tipo de truco.

Identificar, para cada punto de referencia, qué LLM obtienen los mejores resultados es más difícil de lo que parece: las pruebas se repiten continuamente para evaluar los modelos más recientes, las realizan distintas entidades que pueden producir resultados divergentes y, en algunos casos, también se tiene en cuenta la potencia computacional empleada, premiando a los modelos más asequibles.

En general, en lo que respecta a la prueba MMLU, los grandes modelos de lenguaje con mejores resultados son Gemini 2.5 Pro de Google, con un 84.1%; GPT-o1 de OpenAI, con un 83.5%; y Claude 3.7 Sonnet de Anthropic, con un 82.7%. En el caso de HellaSwag, el primer puesto lo ocupa Claude 3 Opus, con un 95.4%; seguido de GPT-4 de OpenAI, con un 95.3%; y en tercer lugar el modelo francés Mistral Large, con un 89.2%. En cuanto a MT-Bench, el primer lugar lo obtiene GPT-4 Turbo, seguido de otros dos modelos GPT de OpenAI, tras los cuales aparecen Mistral Medium y Claude 1.

Los límites de los puntos de referencia

A pesar de su importancia en este campo, los puntos de referencia presentan varias limitaciones. Para obtener los mejores resultados, se requiere una cantidad excesiva de potencia de cálculo; además, los modelos suelen ser entrenados específicamente para destacar en una prueba concreta, e incluso intentan burlar las normas.

Como explica a The Markup la profesora de lingüística computacional Emily Bender, "los creadores de los puntos de referencia nunca han demostrado que esas pruebas midan realmente la comprensión. Los puntos de referencia carecen de validez de constructo; es decir, estas pruebas no demuestran su capacidad para medir realmente lo que fueron diseñadas para evaluar".

Aunque resulta complejo de resumir, la historia que quizá mejor ilustra las limitaciones de los puntos de referencia se remonta a diciembre de 2024, cuando OpenAI declaró que su modelo o3 había superado la prueba ARC-AGI, demostrando así su supuesta capacidad de "razonamiento". El objetivo de esta prueba es evaluar la habilidad de razonamiento abstracto en condiciones similares a las humanas, es decir, con pocos ejemplos y recursos limitados, y sin entrenamiento específico para la tarea.

La profesora de informática Melanie Mitchell, una de las mayores expertas en la materia, refutó las afirmaciones de OpenAI en un extenso artículo publicado en su boletín. En su análisis, Mitchell explica por qué ARC-AGI es un punto de referencia diferente a los demás: porque no requiere un entrenamiento intensivo, sino que plantea problemas básicos que exigen la inducción de reglas abstractas; porque solo se necesitan unos pocos ejemplos para inferir dichas reglas; y porque se espera que el modelo utilice pocos recursos computacionales, como lo hace el cerebro humano.

Cuando publicó los resultados preliminares de su modelo o3, OpenAI aseguró que el sistema había alcanzado un 87.5% de precisión en la prueba ARC-AGI, una cifra muy superior a los registros anteriores, que rondaban el 55%. El propio François Chollet, creador de la prueba, calificó el resultado de "salto cuántico", dando por hecho que o3 podría acercarse al rendimiento humano en una prueba de abstracción, una capacidad típicamente humana.

No obstante, como aclara Mitchell, estos números no bastan para demostrar que el modelo razona realmente en términos abstractos. El sistema generó un gran número de respuestas posibles para cada tarea individual y luego seleccionó la mejor mediante un mecanismo interno de votación. Este enfoque, según Mitchell, contradice los principios fundamentales de ARC, que fue diseñado para evaluar modelos con recursos limitados y sin entrenamiento previo. Además, no hay evidencia de que o3 haya aprendido o generalizado conceptos: es posible que simplemente haya reconocido configuraciones conocidas o similares a las que ya había encontrado.

Puntos de referencia humanos

Para superar las limitaciones de los puntos de referencia formalizados, un enfoque prometedor consiste en incluir a seres humanos en el proceso de evaluación. LMArena, antes llamada Chatbot Arena, fue desarrollada por un grupo de investigadores con el objetivo de permitir que cualquier persona compare dos modelos de lenguaje de forma anónima.

El usuario introduce una única pregunta textual, que se envía a dos chatbots elegidos al azar entre más de 100 modelos disponibles. Una vez recibidas las respuestas, puede emitir un juicio eligiendo entre cuatro opciones: "A es mejor", "B es mejor", "Igual mérito" o "Ambos son malos". LMArena ya ha recogido más de tres millones de evaluaciones, lo que le permite ofrecer una clasificación pública de los modelos más populares. En ella, Gemini 2.5 Pro ocupa el primer lugar, seguido de algunos modelos de OpenAI y de Claude, de Anthropic.

La dificultad para ofrecer una evaluación precisa de los LLM mediante puntos de referencia clásicos también se manifiesta en los modelos más especializados, cuya eficacia se mide mediante pruebas específicas. Como señala un artículo publicado en el New England Journal of Medicine, "en lo que respecta a los puntos de referencia, hemos llegado a la conclusión de que la única evaluación útil es la de los seres humanos", lo que confirma el planteamiento de LMArena.

Los puntos de referencia tradicionales en el campo de la inteligencia artificial aplicada a la medicina, como MedQA, desarrollado por el MIT, están ahora saturados y ya no ayudan a distinguir entre modelos buenos y excelentes. "Los modelos de IA superan fácilmente estas pruebas. Nuestra investigación muestra lo rápido que incluso los puntos de referencia más exigentes son superados por sistemas de razonamiento como OpenAI o1, pero los resultados no guardan relación alguna con lo que realmente importa en la práctica clínica", escriben los autores.

Los especialistas proponen adaptar los métodos clásicos con los que se forma a los médicos humanos, como los juegos de rol realizados con personas: "Los estudios de interacción persona-computadora son mucho más lentos que las evaluaciones basadas en puntos de referencia, pero, a medida que los sistemas sean más potentes, serán cada vez más esenciales".

Cuanto más sofisticados y avanzados se vuelvan los LLM, más difícil será evaluar realmente sus progresos. Y en ese punto, ya sea en el ámbito generalista o en el especializado, surge una curiosa paradoja: tendrán que ser los humanos, y ya no las máquinas, quienes evalúen hasta qué punto las inteligencias artificiales se acercan al nivel de los propios seres humanos.

Fuentes:

https://es.wired.com/articulos/que-pruebas-usamos-para-medir-lo-inteligente-que-es-una-ia

Etiquetas: inteligencia artificial , LLM

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares