Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Inteligencia artificial, TOPs y tokens


Cuando hablamos de inteligencia artificial todos tenemos, más o menos claro, a qué nos estamos refiriendo. Sin embargo, con la popularización de esta tecnología han ido surgiendo nuevos conceptos que están profundamente vinculados a ella y que son muy importantes, pero que al mismo tiempo son menos conocidos. Hoy quiero profundizar en este tema, y me voy a centrar en dos grandes claves, los TOPs y los tokens.



Inteligencia artificial y TOPs

Los TOPs son una unidad de medida que podríamos comparar con otras más conocidas, como los FPS (fotogramas por segundo en juegos) o los GB/s (gigabytes por segundo) en unidades SSD. Esas siglas se refieren a trillones de operaciones por segundo, y como suele ocurrir en la mayoría de los casos cuando hablamos de rendimiento «más TOPs siempre es mejor».

Es una unidad muy fácil de entender. Los TOPs se refieren a los trillones de operaciones que un componente es capaz de realizar en un segundo. Por ejemplo, si una NPU (unidad de procesamiento neural) tiene un valor de potencia de 50 TOPs significa que es capaz de realizar 50 trillones de operaciones en un segundo. Esta sería menos potente que otra NPU con una potencia de 60 TOPs.



Los modelos de inteligencia artificial que utilizamos actualmente necesitan de ciertos valores de rendimiento para poder trabajar de forma óptima, y estos se miden en TOPs. Por ejemplo, Microsoft Copilot+ necesita de un mínimo de 40 TOPs para funcionar de forma óptima. Esto representa un valor orientativo que nos permite establecer el nivel mínimo para que funcionen modelos de IA sencillos de forma local.

Para poder mover modelos de IA mucho más avanzados y complejos impulsados por inteligencia artificial generativa, como por ejemplo los asistentes inteligentes de creación de contenidos digitales, la tecnología de reescalado inteligente aplicada a juegos en PC (NVIDIA DLSS), la generación de imágenes a partir de texto o vídeo y los LLMs (grandes modelos de lenguaje) es necesario contar con mucha más potencia, y es aquí donde entran en juego las GPUs.

Una NPU de última generación puede ofrecer alrededor de 50 TOPs, mientras que una GeForce RTX 4090 puede alcanzar, gracias a sus núcleos tensor de cuarta generación, la friolera de 1.300 TOPs. La diferencia es espectacular, y deja claro también que hay una importante división entre inteligencia artificial básica que se puede afrontar de forma asequible y eficiente, e inteligencia artificial avanzada, que requiere de componentes más punteros y avanzados.

Los TOPs son solo una cara de la moneda, conoce a los tokens

Ya sabes qué son exactamente los TOPs, pero cuando hablamos de LLMs la unidad de medida de rendimiento cambia y pasamos a utilizar los tokens. Sé lo que estás pensando, ¿qué es un token? Pues es muy sencillo, podemos definirlo como la cantidad de elementos de salida que puede generar un LLM. Por ejemplo, un token puede ser una palabra en una frase o incluso un elemento mucho más pequeño, como una letra o un signo de puntuación.

Por tanto, el rendimiento de los LLMs se puede medir en tokens por segundo. Llegados a este punto es importante introducir también otro concepto clave que es todavía menos conocido, pero que resulta fundamental cuando hablamos de modelos grandes de lenguaje, el tamaño de los lotes, que se define como la cantidad de operaciones de entrada que se pueden procesador de forma simultánea en una única pasada de inferencia.


Un LLM que sea capaz de trabajar con varias operaciones de entrada o «inputs» de fuentes y aplicaciones diferentes será superior a otro que se tenga que limitar a una única fuente. Trabajar con lotes más grandes mejorará el rendimiento y el proceso de inferencia, pero al mismo tiempo aumentará la cantidad de memoria necesaria para que ese LLM pueda funcionar correctamente.

Para afrontar este tipo de cargas de trabajo lo ideal es contar con una GPU dedicada que tenga una cantidad de memoria gráfica adecuada. Por ejemplo, una GeForce RTX 4080 con 16 GB de memoria gráfica podrá trabajar con lotes más pequeños que una GeForce RTX 4090 con 24 GB de memoria gráfica, y lo mismo ocurrirá si comparamos a esta última con una NVIDIA RTX 6000, que tiene 48 GB de memoria gráfica.

La memoria gráfica importa, pero el hardware especializado y el software también juegan un papel fundamental para conseguir el máximo rendimiento trabajando con LLMs. Estos pueden aprovechar los núcleos tensor de las GeForce RTX y NVIDIA RTX, y tienen un soporte pleno en el kit de desarrollo NVIDIA TensorRT, lo que se traduce en una inteligencia artificial más eficiente y precisa, y en una mayor capacidad de respuesta a futuros desafíos.


Fuentes:

https://www.muycomputer.com/2024/06/12/inteligencia-artificial-tops-y-tokens-todo-lo-que-debes-saber/


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.