Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
4132
)
-
▼
mayo
(Total:
829
)
-
Ataque Megalodon en GitHub afecta a 5.561 reposito...
-
Europa actúa ante la amenaza bancanria de Claude M...
-
Lenovo logra facturación récord gracias a la IA
-
CISA advierte sobre vulnerabilidad de Trend Micro ...
-
Vuelve el Samsung Galaxy Z Roll
-
Filtraciones de datos en la web móvil de Trump jus...
-
Alternativas gratis a Microsoft 365
-
768GB de memoria Intel Optane barata para ejecutar...
-
El cerebro aprende mejor con libros de papel
-
Ola de malware Shai-Hulud afecta a 600 paquetes de...
-
Splunk corrige vulnerabilidades que permiten ataqu...
-
El nuevo engaño del phishing: cómo el consentimien...
-
FBI advierte sobre Kali365: roban credenciales de ...
-
PS5 con trazado de trayectorias en Linux: 35 FPS a...
-
Malware usa MSHTA de Internet Explorer en Windows 11
-
Ucrania identifica al operador de un infostealer v...
-
Costes de memoria de Nvidia suben 485%, sistemas d...
-
AMD Hammer Lake: vuelve el Hyper Threading con la ...
-
Filtrado el Samsung Galaxy S27 Pro
-
Claude Mythos AI detecta 10.000 vulnerabilidades g...
-
La venta de tarjetas gráficas cae un 41% en 2026 p...
-
Huawei desarrolla un SSD de 122 TB con un empaquet...
-
DeepSeek desploma precios de IA en China
-
npm implementa controles de instalación y publicac...
-
No borres la nueva carpeta SecureBoot de Windows 11
-
Gemini gratuito ya no es ilimitado: limites diario...
-
Explotan vulnerabilidad CVE-2026-48172 en plugin d...
-
Demócratas critican recortes de Trump en cibersegu...
-
Google publica código de exploit para fallo de Chr...
-
Usan Hugging Face para malware en ataque a npm
-
Autoridades desmantelan "First VPN" usada en ataqu...
-
Mini Shai-Hulud compromete paquetes npm de @antv p...
-
EE. UU. y Canadá detienen y acusan al presunto adm...
-
Los AMD Ryzen AI Max 400 son oficiales, el refrito...
-
Exdirector de Samsung prevé fin de crisis de RAM e...
-
Rusia comprará chips chinos para GigaChat
-
Usan falsas descargas de Teams para desplegar Vall...
-
Campaña de phishing con invitaciones falsas roba c...
-
Construyen un PC gaming Steampunk hecho de cobre q...
-
Malware Megalodon comprometió más de 5.500 reposit...
-
Rusia pone publicidad en sus cohetes por crisis ec...
-
Flipper One: el sucesor con IA y Linux
-
Spotify impulsa su IA en música y podcasts
-
Ataque Mini Shai-Hulud obliga a npm a reiniciar to...
-
LibreOffice critica formato de Microsoft y desata ...
-
PC gaming extremo con 13 pantallas internas, 15.00...
-
Ubiquiti parchea vulnerabilidades críticas de UniF...
-
Chrome en riesgo por nueva vulnerabilidad crítica ...
-
Descubren que las claves de API de Google siguen a...
-
Firefox Nova: el gran rediseño del navegador libre
-
El navegador Vivaldi 8.0 se renueva
-
La memoria es un 435% más cara en los racks de ser...
-
Lenovo vende consola con juegos piratas en China
-
El FBI alerta sobre Kali365 ante el aumento del ph...
-
Google expone fallo grave en Chromium
-
Discord activa cifrado de extremo a extremo en vid...
-
YouTube Premium Lite gratis con el plan Google AI Pro
-
España y LaLiga bajo sospecha por incumplir la DSA
-
NVIDIA se lanza a por el mercado CPU con Vera y am...
-
Las CORSAIR Vengeance DDR5 se actualizan en silenc...
-
La IA no reemplazará todos los empleos
-
Detenido en Canadá el operador de la botnet Kimwol...
-
ZeroWriter Fold: el portátil solo para escribir
-
RHEL 10.2 potencia IA, modo imagen y seguridad pos...
-
Vulnerabilidades críticas en Chrome permiten ejecu...
-
SUSE pide a la UE priorizar el código abierto
-
Nvidia superará a Intel y AMD en CPUs
-
Policía interviene el servicio “First VPN”, utiliz...
-
Robots de Figure clasifican paquetes sin pausa
-
PC con RTX 5080 silencioso termina siendo un horno
-
Fraude de clics en Android: 455 apps maliciosas
-
Data Brokers de la Dark Web venden filtraciones an...
-
Requisitos mínimos de GTA VI para PC
-
PS5 hackeada ejecuta Linux y juegos AAA
-
Malware TamperedChef usa apps productivas firmadas...
-
Nuevos 0-days de Microsoft Defender explotados act...
-
Vulnerabilidad de 9 años en el kernel de Linux per...
-
Demandan a Team Group por 1,1 millones debido a pu...
-
Sound Blaster AE-X: Creative vuelve al mercado de ...
-
AMD responde a NVIDIA y Apple con Ryzen AI Halo: u...
-
Vulnerabilidad crítica de Cisco Secure Workload pe...
-
AMD Ryzen AI Halo: IA local en tu PC
-
TDF defiende ODF frente a Microsoft
-
Guía de Windows 11 Insider
-
Una wikipedia de tu vida para dejar un buen legado...
-
Google crea mundos reales con IA con Project Genie
-
Publicado exploit PoC de vulnerabilidad DirtyDecry...
-
OpenAI planea salir a bolsa con valoración récord
-
Starlink sube precios en España
-
Publicidad intrusiva en Android Auto via Google Maps
-
Nuevos juegos en GeForce Now
-
Stroustrup critica la lentitud de Python frente a C++
-
Flipper presenta el nuevo Flipper One Modular Linu...
-
DIGI llega al Reino Unido
-
Botnet Void usa contratos inteligentes de Ethereum...
-
IA ya supera el Test de Turing
-
Filtradas 46 mil contraseñas en texto plano tras b...
-
Microsoft alerta sobre dos vulnerabilidades de Def...
-
Vulnerabilidad en Claude Code expone credenciales ...
-
OpenAI resuelve problema matemático de hace 80 años
-
-
▼
mayo
(Total:
829
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
seguridad
(
1234
)
vulnerabilidad
(
1088
)
Malware
(
705
)
hardware
(
640
)
google
(
630
)
privacidad
(
562
)
Windows
(
521
)
software
(
479
)
ransomware
(
462
)
android
(
411
)
cve
(
361
)
tutorial
(
298
)
linux
(
287
)
manual
(
281
)
nvidia
(
236
)
exploit
(
204
)
hacking
(
203
)
WhatsApp
(
173
)
ssd
(
150
)
Wifi
(
131
)
ddos
(
125
)
twitter
(
120
)
app
(
116
)
cifrado
(
112
)
programación
(
93
)
herramientas
(
80
)
youtube
(
75
)
Networking
(
73
)
sysadmin
(
71
)
firefox
(
65
)
firmware
(
58
)
office
(
58
)
adobe
(
56
)
Kernel
(
49
)
hack
(
46
)
antivirus
(
44
)
juegos
(
42
)
apache
(
40
)
javascript
(
40
)
contraseñas
(
39
)
multimedia
(
33
)
cms
(
32
)
eventos
(
32
)
flash
(
32
)
MAC
(
30
)
anonymous
(
28
)
ssl
(
23
)
Forense
(
20
)
conferencia
(
18
)
SeguridadWireless
(
17
)
documental
(
17
)
Debugger
(
14
)
Rootkit
(
14
)
lizard squad
(
14
)
auditoría
(
13
)
metasploit
(
13
)
técnicas hacking
(
13
)
Virtualización
(
11
)
delitos
(
11
)
reversing
(
10
)
adamo
(
9
)
Ehn-Dev
(
7
)
MAC Adress
(
6
)
antimalware
(
6
)
oclHashcat
(
5
)
Entradas populares
-
Un exploit zero-day llamado YellowKey permite abrir unidades con BitLocker usando archivos en un USBEl investigador Chaotic Eclipse ha revelado dos vulnerabilidades críticas: YellowKey y GreenPlasma. YellowKey permite acceder a discos prote...
-
Existen cuatro videojuegos diseñados para aprender Linux desde cero o mejorar conocimientos mediante retos prácticos y divertidos .
-
Las gafas inteligentes Ray-Ban de Meta se abrirán a aplicaciones de terceros mediante Android XR para ampliar su compatibilidad.
768GB de memoria Intel Optane barata para ejecutar LLM de 1 billón de parámetros
domingo, 24 de mayo de 2026
|
Publicado por
el-brujo
|
Editar entrada
Un entusiasta logró ejecutar localmente el modelo de lenguaje Kimi K2.5 de un billón de parámetros utilizando 768 GB de memoria Intel Optane usada. Gracias a una configuración híbrida de CPU y GPU, alcanzó una velocidad de procesamiento de aproximadamente 4 tokens por segundo. Este proyecto demuestra que existe una oportunidad para memorias intermedias entre la RAM y los SSD en el despliegue de IA.
Un usuario de Reddit ha causado sensación al lograr que un equipo de trabajo utilizando módulos Optane PMem como RAM ejecute un LLM de 1 billón de parámetros. APFrisco explica en un mini tutorial/guía en el subreddit Local LLaMA cómo compró memoria persistente Intel Optane usada, adquirida a un precio relativamente bajo, para "ejecutar un modelo de 1 billón de parámetros (en este caso Kimi K2.5) localmente a unos 4 tokens/segundo" en su estación de trabajo Xeon.
> Equipo informático utilizando Memoria Persistente Intel Optane - Puede ejecutar un modelo de 1 billón de parámetros a más de 4 tokens/seg
> desde r/LocalLLaMA
> r/LocalLLaMA
La pieza central de esta hazaña fue la obtención por parte del Redditor de seis módulos Optane PMem (DCPMM). Este formato de memoria, ya descontinuado, fue diseñado para cerrar la brecha entre la DRAM y los SSD. Aunque los 768 GB de Optane (6x 128 GB) ofrecen una latencia mucho menor que los mejores SSD NVMe, siguen siendo dos o tres veces más lentos que la DRAM. Estas características son muy atractivas para los marcos de inferencia de LLM, y el precio de segunda mano fue "mucho menor de lo que costaría la capacidad equivalente en DRAM". Pero, lamentablemente, Optane ha muerto, por lo que esta es una solución exótica.
Las especificaciones de hardware de APFrisco fueron las siguientes:
* CPU Intel Xeon Gold 6246
* Placa base Tyan S5630GMRE-CGN
* GPU Asus Dual GeForce RTX 3060 OC 12 GB
* 6x módulos Samsung 2666MHz DDR4 ECC DRAM de 32 GB
* 6x módulos de memoria persistente Intel Optane DCPMM PC4-2666 NMA1XBD128GQS de 128 GB
* SSD NVMe M.2 2280 Western Digital WD SN850X de 2 TB
* Fuente de alimentación totalmente modular ASRock Steel Legend SL-850G 850W 80 PLUS GOLD y Cybenetics Platinum
* Caja para PC de Home Theater Silverstone SST-GD08B (Negro) Serie Grandia
El equipo fue configurado con el Optane en modo de memoria y la DDR4 de Samsung como caché.
La parte del software de la ecuación se basó en la arquitectura de mezcla de expertos de Kimi K2.5. APFrisco utilizó una metodología de inferencia híbrida GPU/CPU con llama.cpp. Además, para optimizar el procesamiento, los componentes de enrutamiento se introdujeron en la GPU de 12 GB utilizando el flag 'override-tensor' de llama.cpp.
El Redditor está bastante orgulloso del rendimiento resultante de aproximadamente 4 tokens por segundo. "Teniendo en cuenta que se trata de un modelo de vanguardia de un billón de parámetros que se ejecuta con un presupuesto de hardware tan limitado, lo consideraría un gran éxito", escribe APFrisco. A continuación, lamenta la retirada de los productos Optane por parte de Intel.
Si estás interesado en el análisis de este equipo y lo que logró en términos de inferencia local de LLM, puedes encontrar más detalles sobre la configuración en la publicación original. Además, APFrisco permanece en los comentarios para responder preguntas y parece beneficiarse de recomendaciones sobre cómo lograr resultados aún mejores.
Fuente:
TomsHardware
> Equipo informático utilizando Memoria Persistente Intel Optane - Puede ejecutar un modelo de 1 billón de parámetros a más de 4 tokens/seg
> desde r/LocalLLaMA
> r/LocalLLaMA
La pieza central de esta hazaña fue la obtención por parte del Redditor de seis módulos Optane PMem (DCPMM). Este formato de memoria, ya descontinuado, fue diseñado para cerrar la brecha entre la DRAM y los SSD. Aunque los 768 GB de Optane (6x 128 GB) ofrecen una latencia mucho menor que los mejores SSD NVMe, siguen siendo dos o tres veces más lentos que la DRAM. Estas características son muy atractivas para los marcos de inferencia de LLM, y el precio de segunda mano fue "mucho menor de lo que costaría la capacidad equivalente en DRAM". Pero, lamentablemente, Optane ha muerto, por lo que esta es una solución exótica.
Las especificaciones de hardware de APFrisco fueron las siguientes:
* CPU Intel Xeon Gold 6246
* Placa base Tyan S5630GMRE-CGN
* GPU Asus Dual GeForce RTX 3060 OC 12 GB
* 6x módulos Samsung 2666MHz DDR4 ECC DRAM de 32 GB
* 6x módulos de memoria persistente Intel Optane DCPMM PC4-2666 NMA1XBD128GQS de 128 GB
* SSD NVMe M.2 2280 Western Digital WD SN850X de 2 TB
* Fuente de alimentación totalmente modular ASRock Steel Legend SL-850G 850W 80 PLUS GOLD y Cybenetics Platinum
* Caja para PC de Home Theater Silverstone SST-GD08B (Negro) Serie Grandia
El equipo fue configurado con el Optane en modo de memoria y la DDR4 de Samsung como caché.
La parte del software de la ecuación se basó en la arquitectura de mezcla de expertos de Kimi K2.5. APFrisco utilizó una metodología de inferencia híbrida GPU/CPU con llama.cpp. Además, para optimizar el procesamiento, los componentes de enrutamiento se introdujeron en la GPU de 12 GB utilizando el flag 'override-tensor' de llama.cpp.
El Redditor está bastante orgulloso del rendimiento resultante de aproximadamente 4 tokens por segundo. "Teniendo en cuenta que se trata de un modelo de vanguardia de un billón de parámetros que se ejecuta con un presupuesto de hardware tan limitado, lo consideraría un gran éxito", escribe APFrisco. A continuación, lamenta la retirada de los productos Optane por parte de Intel.
Si estás interesado en el análisis de este equipo y lo que logró en términos de inferencia local de LLM, puedes encontrar más detalles sobre la configuración en la publicación original. Además, APFrisco permanece en los comentarios para responder preguntas y parece beneficiarse de recomendaciones sobre cómo lograr resultados aún mejores.
Fuente:
TomsHardware
Enviar por correo electrónico
Escribe un blog
Compartir en X
Compartir con Facebook
Compartir en Pinterest


Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.