Productos FTTH

Tienda FFTH desde 2004

Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon 768GB de memoria Intel Optane barata para ejecutar LLM de 1 billón de parámetros


Un entusiasta logró ejecutar localmente el modelo de lenguaje Kimi K2.5 de un billón de parámetros utilizando 768 GB de memoria Intel Optane usada. Gracias a una configuración híbrida de CPU y GPU, alcanzó una velocidad de procesamiento de aproximadamente 4 tokens por segundo. Este proyecto demuestra que existe una oportunidad para memorias intermedias entre la RAM y los SSD en el despliegue de IA.



 
Un usuario de Reddit ha causado sensación al lograr que un equipo de trabajo utilizando módulos Optane PMem como RAM ejecute un LLM de 1 billón de parámetros. APFrisco explica en un mini tutorial/guía en el subreddit Local LLaMA cómo compró memoria persistente Intel Optane usada, adquirida a un precio relativamente bajo, para "ejecutar un modelo de 1 billón de parámetros (en este caso Kimi K2.5) localmente a unos 4 tokens/segundo" en su estación de trabajo Xeon.

> Equipo informático utilizando Memoria Persistente Intel Optane - Puede ejecutar un modelo de 1 billón de parámetros a más de 4 tokens/seg
> desde r/LocalLLaMA
> r/LocalLLaMA

La pieza central de esta hazaña fue la obtención por parte del Redditor de seis módulos Optane PMem (DCPMM). Este formato de memoria, ya descontinuado, fue diseñado para cerrar la brecha entre la DRAM y los SSD. Aunque los 768 GB de Optane (6x 128 GB) ofrecen una latencia mucho menor que los mejores SSD NVMe, siguen siendo dos o tres veces más lentos que la DRAM. Estas características son muy atractivas para los marcos de inferencia de LLM, y el precio de segunda mano fue "mucho menor de lo que costaría la capacidad equivalente en DRAM". Pero, lamentablemente, Optane ha muerto, por lo que esta es una solución exótica.

Las especificaciones de hardware de APFrisco fueron las siguientes:


* CPU Intel Xeon Gold 6246
* Placa base Tyan S5630GMRE-CGN
* GPU Asus Dual GeForce RTX 3060 OC 12 GB
* 6x módulos Samsung 2666MHz DDR4 ECC DRAM de 32 GB
* 6x módulos de memoria persistente Intel Optane DCPMM PC4-2666 NMA1XBD128GQS de 128 GB
* SSD NVMe M.2 2280 Western Digital WD SN850X de 2 TB
* Fuente de alimentación totalmente modular ASRock Steel Legend SL-850G 850W 80 PLUS GOLD y Cybenetics Platinum
* Caja para PC de Home Theater Silverstone SST-GD08B (Negro) Serie Grandia

El equipo fue configurado con el Optane en modo de memoria y la DDR4 de Samsung como caché.

La parte del software de la ecuación se basó en la arquitectura de mezcla de expertos de Kimi K2.5. APFrisco utilizó una metodología de inferencia híbrida GPU/CPU con llama.cpp. Además, para optimizar el procesamiento, los componentes de enrutamiento se introdujeron en la GPU de 12 GB utilizando el flag 'override-tensor' de llama.cpp.

El Redditor está bastante orgulloso del rendimiento resultante de aproximadamente 4 tokens por segundo. "Teniendo en cuenta que se trata de un modelo de vanguardia de un billón de parámetros que se ejecuta con un presupuesto de hardware tan limitado, lo consideraría un gran éxito", escribe APFrisco. A continuación, lamenta la retirada de los productos Optane por parte de Intel.

Si estás interesado en el análisis de este equipo y lo que logró en términos de inferencia local de LLM, puedes encontrar más detalles sobre la configuración en la publicación original. Además, APFrisco permanece en los comentarios para responder preguntas y parece beneficiarse de recomendaciones sobre cómo lograr resultados aún mejores.

Fuente:
TomsHardware

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.