Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
592
)
-
▼
abril
(Total:
158
)
-
Un "gracias" a ChatGPT consume más que 10 búsqueda...
-
Perro-robot puede pastorear ovejas sin ayuda humana
-
La opción que deberías desactivar en ChatGPT si qu...
-
YouTube Music estrena dos nuevas funciones
-
La Comisión Europea multa a Apple con 500 millones...
-
Western Digital y Microsoft están extrayendo de lo...
-
OpenAI trabaja en una red social con IA
-
Intel despedirá a 21.000 empleados, el 20% de su p...
-
Mavinject.exe: inyección de DLL utilizando la util...
-
DOOM funcionando en un código QR de solo 2,5 kilob...
-
Una vaca ha logrado cortar la conexión a internet ...
-
Google no eliminará las cookies de terceros en Chrome
-
MAGI-1, la IA china de código abierto, que genera ...
-
Google paga «millones» a Samsung por preinstalar G...
-
OutRun tendrá una película de la mano de Michael B...
-
OpenAI dispuesta a comprar Chrome si la justicia o...
-
Malware chino SuperCard X para Android es capaz de...
-
Wikipedia lanza un conjunto de datos para entrenar...
-
FramePack permite generar vídeos por IA con solo 6...
-
Microsoft Copilot ya es capaz de crear presentacio...
-
Smartphones y tablets tendrán que utilizar nueva e...
-
Hertz sufre un robo de información que afecta a má...
-
Ordenadores cuánticos: el qubit reemplaza al bit
-
El fundador de Telegram prefiere salir del mercado...
-
Instagram utiliza la IA para detectar a los adoles...
-
China presenta un cañón de 16 tubos para derribar ...
-
Meta quiere usar tus datos para entrenar su IA: si...
-
G1, el robot que practica artes marciales
-
¿Cuáles son los mejores sistemas operativos para l...
-
¿Por qué Graphene OS sólo es compatible con los te...
-
Western Digital anuncia discos duros de 40 TB para...
-
Vulnerabilidad crítica en la función extract() de ...
-
#laligagate, la movilización de usuarios y webs pa...
-
Operación Bonanza, una estafa piramidal de más de ...
-
Ucrania equipa sus drones con malware para sabotea...
-
Proxmox lanza la versión 8.4 de su plataforma de v...
-
Los primeros robots humanoides en correr una media...
-
Vulnerabilidad Windows NTLM explotada para robo de...
-
Vulnerabilidad en Cisco Webex permite ejecutar cód...
-
"ChatGPT es mi amigo y mi terapeuta": cada vez más...
-
Onorato IA, el loro robot que acompaña, habla y cu...
-
Investigadores descubren una nueva forma de evitar...
-
Alerta por la nueva función de Instagram que muest...
-
Un abogado cita sentencias "inexistentes" inventad...
-
Cuáles son los principales ataques a modelos de in...
-
RAID y ZFS: ¿Qué son y para qué sirven?
-
La justicia de Estados Unidos determina que Google...
-
Hackeó la Xbox antes que nadie y de paso logró alg...
-
Alertan sobre el aumento de los casos de clonación...
-
Windows 7 Elite Edition, ¿por qué no puede ser así...
-
OpenAI presenta o3 y o4-mini, sus modelos de razon...
-
Utilizar la IA de OpenAI para averiguar la ubicaci...
-
Meta empieza a usar lo que publicas en Facebook e ...
-
Los teléfonos Android se reiniciarán solos tras 3 ...
-
Make web mapping (open source) great again
-
El disco en PS5 de Indiana Jones y el Gran Círculo...
-
Desarrollan una herramienta de IA financiada por e...
-
ChatGPT se convierte en la aplicación móvil más de...
-
Google Chrome corrige un error de privacidad que a...
-
Fortinet advierte que atacantes pueden conservar e...
-
4chan hackeado, roban datos personales y el código...
-
La vida útil de los certificados SSL/TLS se reduci...
-
ServerlessHorrors: la web que recoge las peores pe...
-
Estados Unidos deja atrás las cintas magnéticas co...
-
FACUA pide a la AEPD que investigue a Cecotec por ...
-
Le han enseñado todos los capítulos de ‘Tom y Jerr...
-
¿Qué son los «embeddings» en un LLM?
-
¿Qué es una ventana de contexto en un LLM?
-
Diferencias entre los procesadores Ryzen, Threadri...
-
Los videojuegos ya generan más dinero con micropag...
-
La historia de la Inteligencia Artificial (IA)
-
Duelo de titanes: procesadores Intel Xeon y AMD EPYC
-
Firebase Studio de Google te permite programar gra...
-
Jeff Bezos funda una compañía de coches eléctricos...
-
Linus Torvalds se rinde ante Git: "Es más popular ...
-
La promesa de AMD Strix Halo de jugar con un PC Ga...
-
Google convierte cualquier documento en un pódcast...
-
OpenSSH 10 se despide de DSA y da la bienvenida al...
-
Vulnerabilidad de Windows aprovechada para instala...
-
Los procesadores fotónicos, infinitamente más rápi...
-
Millones de ordenadores sumergidos en fluidos para...
-
Hackean el sitio de filtraciones del grupo de rans...
-
AMD anuncia los procesadores Ryzen 8000HX para por...
-
Disponible Commandos: Origins, una precuela que re...
-
Samsung Ballie, un robot de uso doméstico utiliza ...
-
Google lanza un protocolo abierto para que los age...
-
Anbernic RG 557, una consola portátil con Android ...
-
Archivo JPEG en WhatsApp para Windows podría ser u...
-
Tranquilo y arrepentido, así se ha mostrado el Alc...
-
Cecotec fue hackeada en 2023 y lo dice ahora: roba...
-
El uso de IA generativa hace más "tontas" a las pe...
-
Microsoft despide a una ingeniera marroquí por neg...
-
Google anuncia Sec-Gemini, un modelo de IA para re...
-
Asus, Dell, HP, Lenovo y Razer detienen sus envíos...
-
Qué es el Model Context Protocol (MCP) y cuál es s...
-
Android 16 llega hoy a los móviles Xiaomi
-
Donald Trump cree que Estados Unidos puede fabrica...
-
¿Cuánto dinero ha perdido Apple por los aranceles ...
-
Aseguran haber robado los datos de la Lista Robins...
-
La empresa matriz de Kellogg's, víctima de un cibe...
-
-
▼
abril
(Total:
158
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Pavel Durov , fundador de Telegram , se ha opuesto firmemente al uso de puertas traseras en las aplicaciones de mensajería que está propon...
-
LaLiga no hace más que crearse enemigos. En su lucha contra la piratería, avalada por los tribunales de justicia, termina haciendo verdade...
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
¿Qué es una ventana de contexto en un LLM?
La ventana de contexto (o "longitud de contexto") de un modelos de lenguaje de gran tamaño (LLM) es la cantidad de texto, en token, que el modelo puede considerar o "recordar" en cualquier momento. De forma sencilla podemos definir la ventana de contexto de un Gran Modelo de Lenguaje como la cantidad de tokens que el modelo puede procesar al momento de interpretar una secuencia de texto.
¿Qué es una ventana de contexto?
La ventana de contexto (o «longitud de contexto») de un gran modelo lingüístico (LLM) es la cantidad de texto, en tokens, que el modelo puede considerar o «recordar» en un momento dado. Una ventana de contexto mayor permite a un modelo de IA procesar entradas más largas e incorporar una mayor cantidad de información en cada salida.
La ventana de contexto de un LLM puede considerarse el equivalente de su memoria de trabajo. Determina la duración de una conversación que puede mantener sin olvidar detalles anteriores. También determina el tamaño máximo de los documentos o muestras de código que puede procesar a la vez. Cuando un mensaje, una conversación, un documento o una base de código superan la ventana de contexto de un modelo de inteligencia artificial, deben truncarse o resumirse para que el modelo pueda continuar.
En términos generales, aumentar el tamaño de la ventana de contexto de un LLM se traduce en una mayor precisión, menos alucinaciones, respuestas más coherentes del modelo, conversaciones más largas y una mayor capacidad para analizar secuencias de datos más largas. Sin embargo, el aumento de la longitud del contexto no está exento de inconvenientes: a menudo conlleva un aumento de los requisitos de potencia computacional -y, por tanto, de los costes- y un aumento potencial de la vulnerabilidad a los ataques de adversarios.
Ventanas de contexto y tokenización
En el mundo real, la longitud de contexto de un modelo lingüístico no se mide en palabras, sino en tokens. Para entender cómo funcionan las ventanas de contexto en la práctica, es importante comprender cómo funcionan estos tokens.
La forma en que los LLM procesan el lenguaje es fundamentalmente distinta de la forma en que lo hacen los humanos. Mientras que la unidad de información más pequeña que utilizamos para representar el lenguaje es un solo carácter -como una letra, un número o un signo de puntuación-, la unidad de lenguaje más pequeña que utilizan los modelos de IA es un token. Para entrenar un modelo que comprenda el lenguaje, se asigna a cada token un número de identificación; estos números de identificación, en lugar de las palabras o incluso los propios tokens, se utilizan para entrenar el modelo. Esta tokenización del lenguaje reduce significativamente la potencia de cálculo necesaria para procesar y aprender del texto.
La cantidad de texto que puede representar un token es muy variada: un token puede representar un solo carácter, una parte de una palabra (como un sufijo o prefijo), una palabra entera o incluso una frase corta de varias palabras. Considere los distintos papeles que desempeña la letra «a » en los siguientes ejemplos:
«Jeff conducía un coche».
Aquí, la «un» es una palabra entera. En esta situación, estaría representada por un token distinto.
«Jeff es un amoral».
Aquí, «un» no es una palabra, pero su adición a moral cambia significativamente el significado de la palabra. Por lo tanto, amoral se representaría con dos fichas distintas: una ficha para a y otra para moral.
«Jeff ama a su gato».
Aquí, a es simplemente una letra de la palabra «gato». No tiene significado semántico en sí misma y, por tanto, no necesita ser representada por un token distinto.
Por ejemplo, en la frase “El perro está jugando mientras que el gato acaba de comer y ahora duerme plácidamente” para determinar a qué sujeto se refiere la palabra “duerme” la Red Transformer debe analizar la totalidad del texto y la relaciones entre palabras a diferentes niveles para determinar en últimas que el sujeto es el gato y no el perro.
Así que en últimas el contexto es la relación que existe entre las diferentes palabras y que permite interpretar y codificar adecuadamente la información del texto analizado por el modelo.
Teniendo claro este sencillo concepto, ahora sí podemos ver qué son las ventanas de contexto.
No existe un «tipo de cambio» fijo entre palabra y token, y distintos modelos o tokenizadores -un subconjunto modular de un modelo más amplio responsable de la tokenización- pueden tokenizar el mismo pasaje de escritura de forma diferente. Una tokenización eficaz puede ayudar a aumentar la cantidad real de texto que cabe dentro de los límites de una ventana contextual. Pero para fines generales, una estimación decente sería aproximadamente 1,5 tokens por palabra. El Tokenizer Playground en Hugging Face es una manera fácil de ver y experimentar con cómo los diferentes modelos tokenizan las entradas de texto.
¿Por qué los modelos tienen una longitud de contexto máxima?
Ventanas contextuales y recursos informáticos
¿Y si el texto es demasiado extenso?
Bien, ya tenemos claro qué es la ventana de contexto. Pero entonces, ¿qué sucedería si en una cierta aplicación que estemos desarrollando introducimos un texto que supere el tamaño de la ventana de contexto del modelo de lenguaje?
Pues simplemente el modelo no logrará ni siquiera procesar este texto, y mucho menos generar una respuesta.
Por ejemplo, supongamos que queremos usar ChatGPT para que nos genere el resumen del texto completo de “Don Quijote de la Mancha”. Entonces copiamos y pegamos el texto completo y le pedimos que haga el resumen.
Y al hacer la solicitud a ChatGPT vemos que nos genera un mensaje de error indicando que el texto introducido es demasiado extenso. Es decir que ni siquiera nos genera una respuesta.
Lo que ocurre en este caso es que el texto completo de “Don Quijote” contiene más de 2 millones de caracteres, es decir más de 226.000 tokens. Y como la ventana de contexto de GPT-3.5, el modelo usado por ChatGPT, es de 4.096 tokens pues simplemente no resulta posible procesar este texto.
En otras ocasiones lo que puede ocurrir es que si el texto excede el límite de la ventana de contexto, el modelo simplemente lo trunca a la entrada para asegurar que exista espacio para generar la respuesta. Sin embargo, es muy probable que la respuesta del modelo no sea la esperada pues el texto de entrada estará incompleto.
¿Cómo procesar textos muy extensos?
Acabamos de ver que es clave que el texto a procesar o generar sea acorde con el tamaño de la ventana de contexto.
Pero en ocasiones tendremos un texto relativamente extenso y queremos que sea procesado por uno de estos modelos. Así que siempre el primer paso es asegurarnos de que el modelo tenga una ventana de contexto adecuada para la longitud del texto a procesar.
Por ejemplo, modelos como GPT-3.5 y 4.0 tienen ventanas de contexto que van de los 4.096 a los 32.768 tokens, pero recientemente modelos como Claude, de la empresa Anthropic, tienen ventanas de contexto de hasta 100.000 tokens. Así que en principio existen diferentes alternativas y tamaños de ventanas de contexto que se ajustan a nuestras necesidades.
Sin embargo, en ocasiones el texto a procesar puede incluso superar estos límites de los modelos existentes, así que en estos casos existen algunas alternativas para lograr hacer el procesamiento.
La primera de ellas es simplemente dividir el texto en pequeños fragmentos (lo que se conoce como chunking) donde cada fragmento que no supera el de la ventana de contexto del modelo a usar.
Otra alternativa es combinar el chunking con la generación de resúmenes: por cada fragmento de texto se genera un breve resumen y luego todos los resúmenes se concatenan en un nuevo texto, de menor extensión que el original y que puede caber en la ventana de contexto.
Y una tercera alternativa es el uso de bases de datos vectoriales. En un próximo artículo hablaré de este tipo de bases de datos pero la idea general es que lo que se hace es tomar el texto extenso y representarlo usando lo que se conoce como embeddings que son simplemente vectores o arreglos de números.
De estos embeddings también hablé en detalle anteriormente en un artículo, pero lo importante acá es que al usarlos logramos representar el texto de forma compacta a través de vectores.
Y generalmente con estas técnicas lograremos evitar las limitaciones impuestas por las ventanas de contexto.
Retos de las ventanas de contexto largas
Problemas de rendimiento
Retos de seguridad y ciberseguridad
Tamaños de ventana de contexto de LLM destacados
- El modelo GPT-3.5 que impulsó el lanzamiento de ChatGPT tenía una longitud máxima de contexto de 4.096 tokens, ampliada posteriormente a 8.192 tokens con GPT-3.5-Turbo.
- En su lanzamiento, GPT-4 tenía la misma longitud de contexto de 8.192 tokens. Aunque la ventana de contexto de GPT-4 y GPT-4-Turbo se ha ampliado desde entonces a 128.000 tokens, su máximo de tokens de salida sigue estando limitado a 4.096 tokens.
- Tanto GPT-4o como GPT-4o mini tienen una ventana de contexto de 128.000 tokens, con un límite de salida de 16.384 tokens.
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.