Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
905
)
-
▼
junio
(Total:
58
)
-
Windows 11 permite comprimir imágenes sin aplicaci...
-
OpenAI revela que los registros de ChatGPT se cons...
-
Windows Maintenance Tool: repara, limpia y mantien...
-
Rufus 4.8 mejora el rendimiento con las ISO de Win...
-
NVIDIA N1X: el chip ARM para PCs competirá con Int...
-
Google Beam, el dispositivo de videollamadas de Go...
-
WhiteRabbitNeo un LLM (un "ChatGPT") para hacking
-
OpenAI utilizará Google Cloud para la capacidad co...
-
Microsoft bloqueará archivos .library-ms y .search...
-
Por primera vez, un hombre con ELA ha conseguido h...
-
Descubren una vulnerabilidad crítica de Copilot qu...
-
Una ‘calcomanía’ creada con inteligencia artificia...
-
Una Atari 2600 gana al ajedrez a ChatGPT
-
Vulnerabilidades en Fortinet explotadas para infec...
-
Script PowerShell para restaurar la carpeta "inetp...
-
Nintendo Switch 2 vende 3,5 millones de unidades e...
-
ChatGPT sufre una caída a nivel mundial: la IA dej...
-
OpenAI anuncia su IA más poderosa e inteligente a ...
-
Magistral es el nuevo modelo de razonamiento de Mi...
-
OpenAI, Meta y Google pierden su talento en IA a f...
-
El teléfono móvil domina el tráfico web global con...
-
Apple ha demostrado que los modelos de razonamient...
-
Tu nombre, dirección y tarjeta: filtración de 7 mi...
-
Adiós a #SkinnyTok: TikTok prohíbe en España la te...
-
Apple presenta el nuevo diseño de software Liquid ...
-
Las mejores alternativas a WhatsApp 2025: segurida...
-
Microsoft anuncia un programa de ciberseguridad pa...
-
Qué son los Agentes de IA y por qué se dice que mo...
-
¿Cuánta información memoriza realmente un LLM?
-
Gemini ya permite programar acciones desde el móvil
-
Adobe lanza el Photoshop para Android y es gratis ...
-
CodeStrike, el videojuego gratuito que te enseña P...
-
Filtración datos personales de Infojobs tras sufri...
-
Nuevas patrullas con drones para vigilar áreas urb...
-
¿La publicidad del futuro? Sony presenta la primer...
-
Una startup financiada por Microsoft se hunde tras...
-
Antigua vulnerabilidad crítica en el webmail Round...
-
Mistral Code es un nuevo agente de IA capaz de esc...
-
Una tiktoker ayudó a Corea del Norte a infiltrarse...
-
Multa de 3,2 millones a Carrefour por múltiples br...
-
España bloquea una media de 235.600 llamadas y 10....
-
DeepSeek es acusada de copiar a Gemini, la IA de G...
-
Codex ya está disponible en ChatGPT
-
Disponible Unreal Engine 5.6
-
Scrapy, el framework open source que se ha convert...
-
Glosario para unificar nomenclatura APT
-
Este es el método oculto con el que Meta rastrea s...
-
Personas que perdieron su trabajo porque su jefe p...
-
Llegan los primeros Juegos Olímpicos de robots hum...
-
Hackeo a Movistar Perú:supuesta filtración de dato...
-
Vulnerabilidades críticas en sistema de foros vBul...
-
Starlink V3 es oficial: descargas 10 veces más ráp...
-
Detenido un hombre en Barcelona por grabar con gaf...
-
Google Maps cerró varias autopistas alemanas duran...
-
Así cayó Valyrio, el 'youtuber' que montó un Googl...
-
Guía de seguridad y privacidad de la IA de OWASP
-
Meta se alía con el Ejército de Estados Unidos par...
-
Google ya puede resumir vídeos guardados en Drive ...
-
-
▼
junio
(Total:
58
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Kaspersky ha detectado la filtración de más de 7 millones de cuentas de servicios de 'streaming' en todo el mundo, de las cuales c...
-
ChatGPT, ese símbolo del avance tecnológico con voz sedosa y respuestas a medida, ha sido aplastado por una consola Atari 2600 de 1977 corri...
-
Investigadores de la empresa Aim Security descubrieron una vulnerabilidad crítica en Microsoft 365 Copilot que permitía robar información...
¿Cuánta información memoriza realmente un LLM?
El debate entre memorización y generalización en los LLM (modelos de lenguaje extensos, por sus siglas en inglés) no es nuevo. Pero pocas veces se aborda con la precisión casi quirúrgica con la que lo han hecho un grupo de investigadores de Meta, Google DeepMind, NVIDIA y la Universidad de Cornell. ¿Cuánto puede recordar un LLM de sus datos de entrenamiento? ¿Cuándo deja de memorizar hechos concretos y empieza a aprender patrones? Estas preguntas, en apariencia filosóficas, son en realidad cuantificables. Y eso es justo lo que se ha logrado en este nuevo estudio: medir, con exactitud, cuántos bits puede almacenar un modelo.
La frontera entre lo memorizado y lo aprendido en los LLM no solo es difusa: es invisible a simple vista. A menudo, una respuesta correcta no significa necesariamente que el modelo haya comprendido el concepto, sino que podría haberlo almacenado palabra por palabra. El trabajo de estos investigadores busca precisamente trazar una línea entre ambos fenómenos. Para ello, recurrieron a una estrategia meticulosa: entrenar cientos de modelos de lenguaje desde cero, utilizando datasets tanto sintéticos como reales, cuidadosamente deduplicados para evitar repeticiones involuntarias. Los tamaños de los modelos oscilaban entre los 500.000 y los 1.500 millones de parámetros, con arquitecturas similares a las de GPT.
La innovación más llamativa del estudio es una métrica llamada HK, basada en la complejidad de Kolmogorov, que permite estimar cuánta información original y específica ha sido realmente almacenada por el modelo. Y con esta herramienta, el equipo obtuvo un dato clave: un LLM memoriza, de media, entre 3.5 y 3.6 bits por cada uno de sus parámetros. Esa es la capacidad máxima antes de que el modelo “sature” su espacio y comience a generalizar, abandonando la repetición literal para abrazar patrones estadísticos más amplios.
Esta transición no es simplemente teórica: se manifiesta en la forma de una doble caída en el error de validación, el conocido fenómeno del double descent, que marca el momento en que el modelo empieza a comportarse de forma más generalizada. Al alcanzar el umbral de saturación, los datos memorizados dejan de aportar valor adicional y el modelo reorganiza su “memoria” interna para optimizar el aprendizaje.
Otra observación relevante es que el tipo de precisión con la que se entrena el modelo —como bfloat16 frente a fp32— tiene un efecto mínimo en esta capacidad de memorización. En cambio, los investigadores encontraron que los ejemplos más propensos a ser memorizados eran aquellos con tokens poco frecuentes, secuencias sintácticamente raras o frases en idiomas minoritarios. Es decir, el modelo tiende a almacenar lo inusual, lo que se aleja del patrón dominante.
Este tipo de memorización no solo tiene implicaciones técnicas. También plantea cuestiones sobre privacidad, auditoría y trazabilidad. Si un modelo memoriza ejemplos raros que contienen información sensible, podría reproducirlos sin que sus diseñadores lo sepan. Comprender este límite cuantitativo se vuelve, entonces, una herramienta crítica para evaluar el comportamiento real de los LLM.
El estudio no pretende reducir el tamaño de los modelos ni mejorar directamente su eficiencia computacional. Su aportación está en otro plano: comprender mejor cómo y cuánto puede “recordar” un modelo. Una aportación que, además, sienta las bases para investigaciones futuras sobre cómo controlar, limitar o incluso auditar ese proceso de memorización.
Quizás lo más valioso de este trabajo sea que, al medir lo que parecía inmedible, consigue devolver algo de transparencia a un terreno a menudo tratado como una caja negra. En un momento en que los LLM ya son parte de la infraestructura de nuestra vida digital, saber cuánto recuerdan no es una curiosidad académica, sino una necesidad urgente. Porque solo entendiendo qué hay dentro de un modelo, podremos confiar en lo que sale de él.
Fuentes:
https://www.muycomputer.com/2025/06/05/cuanta-informacion-memoriza-realmente-un-llm/
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.