Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
157
)
-
▼
enero
(Total:
157
)
- Parece un inocente PDF, pero es una estafa bancari...
- DeepSeek tendrá un clon «100% abierto» desarrollad...
- ¿Qué son los tokens en el contexto de los LLM?
- ¿Qué es el destilado de una LLM?
- Se saltan el sistema de cifrado BitLocker de Windo...
- Facebook bloquea cualquier tema de Linux de Distro...
- Ramsomware Makop y Lynx
- NVIDIA pide explicaciones a Super Micro por vender...
- Investigadores canadienses afirman que un ajuste d...
- Vulnerabilidad crítica en Cacti (SNMP)
- FARM discos duros Seagate
- DeepSeek habría sido entrenada con datos robados a...
- Alibaba presenta Qwen2.5-Max, su poderosa IA
- Huawei dice tener un chip para IA igual de potente...
- El fabricante de móviles Oppo es víctima de una gr...
- DeepSeek puede crear malware para robar tarjetas d...
- Historia del fabricante Asus
- Instalar DeepSeek (destilado) con Ollama en tu ord...
- Lossless Scaling: ¿Qué es y cómo funciona?
- Una hora de anuncios para ver un simple vídeo de Y...
- Herramientas gratuitas para transcribir de audio a...
- OpenAI Operator: el agente de IA que automatiza ta...
- DeepSeek Janus-Pro-7B, otro modelo de IA multimoda...
- DeepSeek es víctima de un ataque DDoS
- NVIDIA DLSS 4 (Tecnología de Escalado de nvidia)
- Sony abandona los discos Blu-Ray grabables, MiniDi...
- Vulnerabilidad en el framework Llama Stack de Meta...
- PayPal pagará 2 millones de dólares por la filtrac...
- DeepSeek, la herramienta china que revoluciona la ...
- 119 vulnerabilidades de seguridad en implementacio...
- Cómo bloquear y demorar bots IA de Scraping web
- Oracle, en negociaciones con ByteDance para compra...
- Descubren que Elon Musk hacía trampas en los juego...
- Por ser cliente de Movistar en España tienes grati...
- HDMI 2.2 VS DisplayPort 2.1
- Filtrados datos personales de asegurados de Asisa
- Los fallos que cometió Ulbricht para ser detenido:...
- Instagram desata las críticas de los usuarios espa...
- Donald Trump indulta a Ross Ulbricht, creador del ...
- Alia, la IA del Gobierno Español, es un desastre: ...
- Stargate, un proyecto de Estados Unidos para inver...
- Ataques del ransomware BlackBasta mediante Microso...
- El mayor ataque DDoS registrado alcanzó 5,6Tb/s me...
- Tras el éxito de Doom en documentos PDF, ahora tam...
- Cae una banda de ciberestafadores que enviaba hast...
- Cómo desactivar el Antimalware Service Executable ...
- Herramienta Restablecer Windows
- Seagate llega a los 36 TB con sus nuevos discos du...
- YST (‘Yo soy tú’, como se autodenominó irónicament...
- ¿Qué es la pipeline?
- Una chica de 28 años se enamora de ChatGPT
- Copilot+ ya permite la búsqueda local
- DORA: la normativa europea que obliga a los bancos...
- Apple desactiva funciones de Apple Intelligence po...
- La empresa de hosting GoDaddy, obligada a reforzar...
- Domina los ficheros PDF con dos servicios Docker
- OpenAI desarrolla una IA para prolongar la vida hu...
- TikTok cierra en Estados Unidos
- Vulnerabilidad permite eludir UEFI Secure Boot
- Normativa Drones España 2025
- Robados los datos personales de 97.000 aspirantes ...
- ¿Cómo volar un dron de noche? Esta es la normativa...
- Expuestas 15.000 configuraciones robadas de FortiG...
- Filtración masiva en China expone 1.500 millones d...
- Un ciberataque expone la identidad de 160.000 guar...
- La Policía de España advierte sobre una nueva técn...
- Microsoft estrena protección del administrador de ...
- Windows 11 con sólo 184 MB de RAM
- Evilginx 3 para ataques man-in-the-middle mediante...
- Cómo Barcelona se convirtió en un centro de empres...
- El Gobierno de España anuncia la creación de un Ce...
- RDP Bitmap Forensics para investigaciones DFIR
- Más de 660.000 servidores Rsync expuestos a ataque...
- El FBI elimina el malware chino PlugX en 4.250 ord...
- Hiren's BootCD PE con Windows 11
- Las chicas del ENIAC y las programadoras de los Co...
- Trucos de Windows 11
- Millones de cuentas vulnerables por fallo en OAuth...
- Si no actualizas a Windows 11, no podrás usar Offi...
- Jugar al DOOM dentro de un archivo PDF
- Los mejores procesadores para jugar en 2025, ¿cuán...
- "Explotación masiva" de los firewalls de Fortinet ...
- Cómo funciona la sincronización en el almacenamien...
- Parallels ya permite emular Windows y Linux las Ma...
- Ransomware en Servidores ESXi: Amenazas, Vulnerabi...
- Roban información con Infostealer Lumma mediante t...
- Cómo compartir contraseñas en Google Chrome con "M...
- El arquitecto jefe de Xeon cambia de Intel a Qualc...
- Hackean cuentas de Path of Exile 2 tras robar una ...
- Microsoft consigue que su IA se vuelva experta en ...
- Cómo instalar Stremio en Raspberry Pi para conecta...
- "Free our Feeds" quiere evitar que los millonarios...
- Otra Botnet Mirai para realizar ataques DDoS
- Telegram comienza a colaborar con las autoridades ...
- Múltiples vulnerabilidades críticas en productos S...
- La historia del trabajador número 8 de Apple que l...
- Descubren cómo hackear el controlador USB-C del iP...
- ¿A qué temperatura empieza la CPU a envejecer?
- Xiaomi presenta Redmi Note 14
- La IA comenzará a subtitular los vídeos en VLC
-
▼
enero
(Total:
157
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Cómo instalar DeepSeek en tu ordenador , para poder utilizarlo cuando quieras. Hay varias maneras de hacerlo, pero nosotros vamos a intentar...
-
Si eres un usuario de Windows 10 y tu dispositivo está trabajando lento, entonces, es el antimalware service executable que tiene un consum...
-
Las decisiones de Mark Zuckerberg de eliminar la verificación de datos independiente de sus redes sociales y de cambiar las normas de mode...
¿Qué son los tokens en el contexto de los LLM?
Los tokens son palabras, juegos de caracteres o combinaciones de palabras y signos de puntuación generados por modelos de lenguaje grandes (LLM) cuando descomponen texto. La tokenización es el primer paso del entrenamiento. El LLM analiza las relaciones semánticas entre tokens, como la frecuencia con la que se usan juntos o si se usan en contextos similares. Después del entrenamiento, el LLM usa esos patrones y relaciones para generar una secuencia de tokens de salida en función de la secuencia de entrada.
Los tokens son la base del funcionamiento de los modelos de lenguaje grandes (LLM), como ChatGPT. Imagina que un texto es como una construcción hecha con pequeñas piezas, como un Lego. Los tokens son esas piezas individuales. En lugar de letras o palabras completas, los LLM trabajan con estas unidades llamadas tokens.
¿Qué significa token en el contexto de la informática?
Pues tiene muchos significados distintos y muy diversos usos, que incluso no tienen nada que ver unos con otros, pero curiosamente... al final no dejan de ser fichas de feria: representan a 'algo'.
Por ejemplo, en ciberseguridad, un token es una cadena hexadecimal con una longitud prefijada que te da un sistema de autenticación. O también es ese número que se genera de manera pseudo-aleatoria como segundo factor de autenticación.
En criptomonedas, un token representa un activo digital o un derecho asociado a un sistema blockchain. Por ejemplo, en el caso de los NFT, la posesión de un token implica la propiedad digital del activo que representa.
Ahora, vamos a aproximarnos a un uso más cercano al de los LLMs: los compiladores. Imagina un pequeño fragmento de código fuente, por ejemplo, en JavaScript:
console.log("hola mundo");
Un compilador o intérprete verá el código fuente en forma de ‘tokens’, es decir, unidades mínimas de significado, como las palabras o símbolos que componen este código: console (objeto), . (operador), log (método), "hola mundo" (cadena de texto) y ; (terminador).
console.log ( "hola mundo" ) ;
Estos ‘trozos’ permiten que el compilador entienda y analice el código. En los modelos de lenguaje, el concepto es similar, pero aplicado al texto en lenguaje natural: los tokens representan palabras o partes de palabras para que el modelo pueda analizar su significado y contexto.
En resumen, tanto en el mundo analógico como el digital, podríamos deducir que un token es una entidad mínima y única que posee representa un valor y objeto en un sistema. Sí, correcto, cuándo estudiábamos Lengua en el colegio los profes nos hablaban de 'unidad mínima con significado en el lenguaje': ¡los morfemas y lexemas!
¿Qué es la 'tokenización' en el contexto de los LLM?
Hemos dado tantas pistas e información que posiblemente ya podrías escribir el párrafo. Aun así, todavía nos quedan unos trucos en la manga. Tenemos bastante acorralado el término pero nos quedan unos retoques.
Como hemos visto, tanto en los lenguajes de programación como en el lenguaje humano, hay unidades mínimas. Al final, se separan en 'trozos' (tokens) con significado para analizar el significado de la sentencia, frase o palabra.
Es lo que el Procesamiento del Lenguaje Natural (NLP, en sus siglas en inglés) hace. Técnicas que se llevan usando desde el nacimiento de esta rama de la inteligencia artificial (década de los 50).
Para que un ordenador 'entienda' el lenguaje humano se debe hacer una traducción de palabras a números. Porque esto último es lo único que puede hacer realmente una máquina: operar con números. Ese es el verdadero poder detrás de las bambalinas: operar con números y guardar o manipular valores en una memoria.
Lo abordaremos en otra publicación más adelante, pero adelantamos que la 'magia' detrás de los LLM está en la transformación a vectores de las palabras (tokenizadas) y las relaciones entre ellas. Vamos a quedarnos con: tokens -> números.
Pues bien, la 'tokenización' es el proceso de convertir texto a tokens, pequeños 'trozos' de palabras que existen en forma de vectores dentro del LLM. Además, no solo hay una tokenización canónica sino que existen varias técnicas o procesos que se adaptan al tipo de texto que le proporcionemos en la entrada.
La tokenización, un ejemplo práctico
Hay tantas técnicas de tokenización como situaciones diversas que dependen, como hemos comentado, de la entrada a procesar. Existen tokenizadores que se especializan en detectar y separar caracteres sueltos (ideales para lenguajes humanos basados en ideogramas: chino, coreano, japones...), el denominado Unigram.
Tenemos los algoritmos de tokenización por palabras, adecuados para ciertos idiomas, pero con sus limitaciones: no reconocen palabras que no hayan visto antes y pueden ser ineficientes en el almacenamiento: (coche, coches, cochecito, cochazo...).
Con un buen equilibrio tenemos los basados en sub-palabras: BPE (Byte Pair Encoding) y WordPiece, entre otros. Muy cerca de estos están los que operan a nivel de byte, que es el usado, por ejemplo, por ChatGPT.
Para facilitar la comprensión usaremos la tokenización por palabras, de la librería open-source 'tokenizers' del proyecto HuggingFace.
Tokenización por palabras
El método más básico para la tokenización es aquel que divide la entrada en palabras.
El conjunto de tokens únicos en los que se entrena un LLM se conoce como su vocabulario.
Por ejemplo, considere la siguiente oración:
I heard a dog bark loudly at a cat
Este texto se puede tokenizar así:
- I
- oído
- a
- perro
- ladrar
- fuerte
- at
- a
- cat
Al tener un conjunto suficientemente grande de texto de entrenamiento, la tokenización puede compilar un vocabulario de muchos miles de tokens.
El método de tokenización específico varía según el LLM. Estos son algunos de los métodos comunes de tokenización:
- Tokenización de palabras: el texto se divide en palabras individuales basadas en un delimitador.
- Tokenización de caracteres: el texto se divide en caracteres individuales.
- Tokenización parcial: el texto se divide en palabras parciales o conjuntos de caracteres.
Por ejemplo, los modelos de GPT, desarrollados por OpenAI, usan un tipo de tokenización parcial que se conoce como codificación de byte-par (BPE). OpenAI proporciona una herramienta para visualizar cómo se tokenizará el texto.
Cada método de tokenización tiene sus ventajas y desventajas
¿Cómo funcionan los tokens de IA?
El trabajo del que hablamos, como hemos indicado antes, implica dividir el texto en unidades más pequeñas -a las que se le asigna un valor o identificador único-. Existen diferentes métodos de tokenización, pero algunos de los más comunes en la actualidad son los siguientes:
- Basada en espacios: Este método divide el texto en función de los espacios entre palabras.
- Trabajo en caracteres: Un trabajo que divide el texto en caracteres individuales.
- Gestión en subpalabras: En este caso, se divide las palabras en unidades más pequeñas, como prefijos, sufijos y raíces.
Una vez que el texto se ha tokenizado, los resultados se pasan a un modelo de lenguaje grande (LLM), que utiliza los tokens para comprender el significado del texto que se ha utilizado para pedir algo y, a continuación, se genera una respuesta.
Diferentes tipos de tokens
El trabajo que se realiza es tan amplio y complejo, que actualmente ya existen varios tipos de tokens para el uso en la IA donde, muchos de ellos, son propios de inteligencia artificial generativa. Estos son los básicos que debes conocer:
- Propios de palabras: Representan palabras individuales, como “perro”, “gato” o “casa”.
- Los que abarcan subpalabras: Indica las partes de palabras, como “pre” y “guntar” de la palabra “preguntar”.
- De uso en puntuación: Son los que corresponden a los signos de puntuación, como comas, puntos y signos de interrogación.
- Los que incluyen números: Utilizados para representar números, como “10″ o “2024″.
- Tokens especiales: Más curiosos ya que son los que abarcan las instrucciones o marcadores especiales, como el inicio o el final de una oración.
Beneficios de los tokens en la IA
Los tokens de IA ofrecen varias ventajas para los sistemas de IA generativa, y por este motivo es esencial conocer lo que ha llevado a su uso por lo positivo que esto es:
- Mejoran la comprensión del lenguaje: Al dividir el texto en unidades más pequeñas, los tokens permiten a los modelos de IA comprender mejor la estructura y el significado del lenguaje.
- Facilitan el procesamiento de datos: Los tokens permiten a los modelos de inteligencia artificial procesar grandes cantidades de datos de manera más eficiente.
- Permiten la traducción de idiomas: Los tokens se pueden usar para traducir idiomas al identificar palabras y frases equivalentes en diferentes idiomas.
- Generan contenido creativo: Los tokens se pueden usar para generar diferentes tipos de contenido creativo, como poemas, código, guiones y piezas musicales.
- Mejoran la eficiencia de los modelos: Los tokens permiten optimizar el rendimiento de los modelos de inteligencia artificial ajustando el número de tokens que se pueden procesar a la vez.
Los tokens de IA son la base de la comprensión del lenguaje en la era digital. Permiten a los sistemas generativos procesar y generar lenguaje humano de manera más eficiente y efectiva, lo que abre un mundo de posibilidades para la interacción hombre-máquina y la innovación tecnológica. Y, claro, cuanto mayor es el número que una inteligencia artificial puede utilizar, más potente es esta.
Fuentes:
https://telefonicatech.com/blog/tokenizacion-caballero-andante-don-quijote
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.