Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
1559
)
- ► septiembre (Total: 148 )
-
▼
agosto
(Total:
100
)
-
Limitar el ancho de banda dinámicamente con OPNsense
-
El código del controlador de disquetes de Linux re...
-
Ciberataque de ransomware al Ayuntamiento de Elche...
-
«ChatGPT mató a mi hijo»: padres demandan a OpenAI...
-
Claude, Anthropic confirma que su IA se usó en cib...
-
El “LaLigaGate” llega al Congreso: ERC exige expli...
-
PromptLock, el primer ransomware potenciado por IA
-
LaLiga de Tebas usa los servicios de Cloudflare pa...
-
El nuevo sinsentido de LaLiga: denunciar a las web...
-
Linux cumple 34 años: de pasatiempo universitario ...
-
Cuidado con los iconos de Windows: los ciberataque...
-
Citrix corrige tres vulnerabilidades de NetScaler ...
-
Vulnerabilidad crítica en Docker Desktop para Wind...
-
Le diagnosticaron un cáncer terminal, se divorció ...
-
LaLiga amenaza con acciones legales a los dueños d...
-
Auchan Francia es víctima de una brecha de datos
-
Elon Musk demanda a Apple y OpenAI por dificultar ...
-
Detenido un profesor de Jaén por hackear la plataf...
-
DeepSeek V3.1: la nueva IA china gratuita que desa...
-
xAI libera Grok 2.5 como modelo de código abierto ...
-
El gobierno de Estados Unidos adquiere el 10 % de ...
-
Qwen-Image-Edit: la IA que permite editar imágenes...
-
Microsoft denuncia que un programa identificado co...
-
Extensión VPN de Chrome con 100 mil instalaciones ...
-
Así logran suplantar a Booking si no te fijas bien...
-
China presenta un dispositivo capaz de cortar cabl...
-
Grupo pro ruso NoName057 vuelve a la carga y se es...
-
Detenido Shishi, el fundador de AI Angulo TV
-
Después de un ataque, la página web del CGE perman...
-
LibreOffice 25.8 llega con mejoras de rendimiento,...
-
Alertan sobre la metamorfosis del ransomware graci...
-
A la venta los credenciales de 15,8 millones de cu...
-
Debian 13 “Trixie”: una nueva etapa para la distri...
-
Phison reconoce los problemas que tienen algunos S...
-
Volkswagen lanza una suscripción al estilo Netflix...
-
Descubren que el chatbot de Lenovo puede convertir...
-
Las visitas a páginas porno se desploman "drástica...
-
ChatGPT de OpenAI genera 53 veces más ingresos que...
-
🚴♀️Cecilia Sopeña exige borrar su pasado digital...
-
El navegador web de OpenAI usará a ChatGPT para pe...
-
Actualización de Windows 11 puede provocar el bloq...
-
El CD cumple 43 años, un formato que marcó una época
-
Mini SSD, almacenamiento extraíble a máxima veloci...
-
ChatGPT podría llenarse de anuncios
-
Gemini ahora recuerda todas tus conversaciones sin...
-
MadeYouReset: nueva vulnerabilidad en HTTP/2 permi...
-
Estados Unidos valora comprar acciones de Intel
-
El procesador de AMD Threadripper Pro 9995WX puede...
-
YouTube comenzará a usar inteligencia artificial p...
-
Intel aprende al fin de AMD: su próximo socket dur...
-
Multas de entre 750 y 5.000 € para usuarios de IPT...
-
El vecino que nadie quiere tener: Mark Zuckerberg ...
-
Btrfs le ha ahorrado a Meta miles de millones de d...
-
WinRAR corrige un 0-day explotado: actualiza a 7.1...
-
El pájaro que se convirtió en un disco duro vivien...
-
Un robotaxi chino cae en un foso con una pasajera ...
-
Cinco inteligencias artificiales gratuitas para cr...
-
Grok 4 gratis, la IA de Elon Musk ahora hace deepf...
-
La beta abierta de Battlefield 6 es un éxito en Steam
-
Adiós a poner lavadoras: este robot humanoide ya e...
-
Windows 2030 se utilizará sin teclado y sin ratón,...
-
LG obligada a pagar más de 170 mil euros por el fu...
-
Donald Trump pide la dimisión inmediata del CEO de...
-
La regla del 90-9-1: por qué la mayoría no partici...
-
Preguntas trampa para «ir a pillar» a los LLM: has...
-
GPT-5 es tan inteligente que podría ayudarte a cre...
-
OpenAI gana a Grok al ajedrez
-
Adiós a las gafas: EE.UU. aprueba unas gotas que c...
-
ChatGPT ya responde mejor que un doctor, gracias a...
-
Chema Alonso deja su puesto en el Comité Técnico d...
-
GPT-5 es una bestia en programación: puede desarro...
-
Microsoft crea una IA que detecta malware sin ayud...
-
Tesla, declarada culpable por un atropello mortal
-
Battlefield 6 rinde un 42% mejor en un Ryzen 7 980...
-
Spotify sube de precio y el plan individual pasa a...
-
Genie 3: la nueva frontera de Google DeepMind para...
-
OpenAI presenta su nuevo modelo gratuito gpt-oss q...
-
Vulnerabilidad seguridad crítica en un popular tem...
-
Qué fue de Loquendo, esa voz enlatada que los yout...
-
Una “multa” en el parabrisas, un QR y una web fals...
-
Glosario Cripto: guía completa para entender el mu...
-
Reddit recula con los subreddits de pago (por ahora)
-
Big Sleep, la IA de Google basada en Gemini, descu...
-
¿IA o no? Este test de Microsoft te reta a disting...
-
Thorium: plataforma para analistas forenses y de m...
-
AMD quiere lanzar tarjetas con NPU dedicada pareci...
-
Los motores de búsqueda como Bing están indexando ...
-
Falsos PDF ejecutables: ataques a infraestructuras...
-
Intel Nova Lake-S: especificaciones, cambios a niv...
-
ATX 3.0 vs ATX 3.1: cambios, ventajas y desventajas
-
Ataque a una red de cajeros automáticos a través d...
-
Kimi K2, el nuevo modelo de IA de China que marca ...
-
Actualización de seguridad en Chrome y Safari para...
-
Ponen a la venta millones de DNI de ciudadanos esp...
-
Vulnerabilidad crítica de un Theme de WordPress pe...
-
OpenAI anuncia Stargate Norway, una "gigafactoría ...
-
Empresa con 700 trabajadores y 158 años de histori...
-
Estafadores ofrecen 100 euros al día por tareas se...
-
Linuxfx 2025: el clon de Windows 11 que conquista ...
-
IBM despidió a casi 8.000 empleados para sustituir...
-
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
ClothOff es una app que utiliza inteligencia artificial generativa para desnudar a cualquier persona a partir de fotografías con ropa que...
-
Un equipo de la Universidad de Pekín presentó un chip analógico que promete transformar la inteligencia artificial y el 6G con una veloci...
-
El caso tiene que ver con algunos modelos de Google Pixel en los que se instala el sistema operativo GrapheneOS , una versión alternativa d...
Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales
A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».
Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.
Las comparaciones numéricas
¿9,11 > 9,9?
Respuesta correcta: no.
El efecto conjunción
Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.
- A. Linda es profesora en una escuela infantil
- B. Linda es bibliotecaria y da clases de yoga
- C. Linda es activista de un movimiento feminista
- D. Linda es asistente social, psicóloga especializada
- E. Linda es cajera en un banco
- F. Linda es vendedora de seguros
- G. Linda es cajera en un banco y activista de un movimiento feminista
Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.
Respuesta: sólo se puede deducir que E > G.
Los arándanos rebeldes
How many bs in blueberry?
(¿Cuántas bes hay en «blueberry»?)
Respuesta: 2.
Los números pares
¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?
Respuesta: es imposible, porque son todos números pares.
El test Voigh-Kampff
Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.
Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.
Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).
Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».
En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.
Fuentes:
https://www.microsiervos.com/archivo/ia/preguntas-trampa-pillar-llm.html

Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.