Portátiles SLIMBOOK
Entradas Mensuales
Síguenos en:
Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon ChatGPT, Gemini y Claude no pueden con un test que los humanos superan con facilidad


A pesar de que ciertos gurús de la tecnología consideran que a finales de este año podríamos alcanzar la inteligencia artificial general, parece que está más lejos de lo que se pensaba.





  • La sencilla prueba que pueden resolver la mayoría de los seres humanos, pero que los caros y nuevos modelos de IA suspenden en su totalidad.

Distintos científicos están creando varios test para probar la eficiencia de los distintos modelos de inteligencia artificial que tenemos en el mercado, una serie de exámenes en los que este tipo de modelos suelen sacar buenas puntuaciones, pero no exactamente con el último.

La nueva prueba ARC-AG2 ha sido desarrollada para medir el razonamiento y la resolución general de problemas de un modelo de inteligencia artificial, y ha sido creada por una organización sin fines de lucro llamada The ARC Prize.



Se trata de varias pruebas de tipo puzle donde los modelos de IA deben superar distintos patrones visuales en un conjunto de cuadrados de colores. Una vez que se identifique el patrón, el modelo debe seleccionar la respuesta correcta.

En el lado de los seres humanos, se pidió a 400 personas que realizaran esta prueba, obteniendo en promedio una puntuación del 60 % al superarla.

Sin embargo, los modelos más avanzados de inteligencia artificial, prácticamente no lograron superar absolutamente ninguna de las preguntas ni problemas.

DeepSeek R1 obtuvo una puntuación de 1,3 % de éxito en la prueba, Gemini de Google 1 %, Claude otro 1 %, o incluso el más avanzado modelo GPT 4.5 de OpenAI obtuvo un paupérrimo 0,8 %.

Esta prueba no solo hace uso de la inteligencia como capacidad para resolver estos problemas, sino que examina la eficiencia con la que la IA puede adaptarse y resolver nuevos problemas.

s decir, con este tipo de test se obliga a la IA a resolver problemas que nunca antes había visto, es decir, con los que no se había entrenado anteriormente.

En lo que respecta a tareas nuevas, el ser humano sigue estando muy por encima de estos modelos  multimillonarios.

No es la primera vez que existe esta prueba, dado que en 2019 un empleado de Google creó ARC-AG1, y la primera IA tardó nada menos que cuatro años en superarla. 


Fuentes:

https://computerhoy.20minutos.es/tecnologia/batacazo-ia-chatgpt-gemini-claude-no-pueden-test-humanos-superan-facilidad-1451100


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.