Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Google presenta Ironwood, el chip de IA más potente para competir con Nvidia


 Durante los últimos años lo verdaderamente relevante era entrenar modelos de IA para hacerlos mejores. Ahora que han madurado y el entrenamiento ya no escala de forma tan notable, lo que más importa es la inferencia: que cuando usemos chatbots de IA estos funcionen rápida y eficientemente. Google se dio cuenta de ese cambio de foco, y tiene chips precisamente preparados para ello.


La industria se obsesionó con entrenar modelos de IA, mientras Google preparaba su jugada maestra: chips para inferencia

  • Los nuevos chips Ironwood son la nueva vuelta de tuerca de las TPUs de Google
  • Según la empresa, multiplican por cuatro la eficiencia y la potencia
  • Y se centran en inferencia, donde el poder de CUDA y NVIDIA ya no es tan relevante

Google Cloud anunció oficialmente sus nuevos procesadores Axion y las unidades de procesamiento tensorial Ironwood de séptima generación, una combinación que impulsa su arquitectura AI Hypercomputer, el sistema más avanzado de la compañía para entrenamiento e inferencia de modelos de inteligencia artificial a gran escala.


Estas unidades pueden combinarse en clústeres de cientos de miles de TPUs dentro del AI Hypercomputer, una plataforma que une cómputo, almacenamiento y red bajo una sola capa de gestión. Su sistema de Optical Circuit Switching permite reconfigurar el flujo de datos automáticamente ante cualquier fallo, manteniendo la operación continua. Según IDC, este modelo de supercómputo entrega un 353% de ROI en tres años y 55% más eficiencia operativa.

Empresas como Anthropic y Lightricks ya adoptaron esta infraestructura: la primera planea usar hasta un millón de TPUs Ironwood para la familia de modelos Claude, mientras que la segunda entrena su sistema multimodal LTX-2 con esta nueva tecnología.

Junto a las TPU, Google presentó su primer procesador de servidor propio: los Axion CPUs, basados en la arquitectura Armv9 Neoverse V2. Estos chips ofrecen hasta 50% más rendimiento y 60% mayor eficiencia energética frente a procesadores x86 actuales, con soporte de DDR5-5600 MT/s, 80 MB de caché L3 y configuraciones de hasta 96 vCPUs.

Los Axion estarán disponibles en tres configuraciones principales:

  • C4A: 72 vCPUs, 576 GB de RAM y red de 100 Gbps.

  • N4A: 64 vCPUs, 512 GB de RAM y red de 50 Gbps.

  • C4A Metal: versión bare-metal con 96 vCPUs y 768 GB de RAM.

TPU Ironwood 

Las TPU Ironwood ofrecen 4.614 TFLOPS FP8 con 192 GB de memoria HBM3E y ancho de banda de hasta 7,37 TB/s. Los pods escalan hasta 9.216 aceleradores, alcanzando un total de 42,5 exaFLOPS FP8, superando ampliamente el rendimiento de las NVIDIA GB300 NVL72, que registran apenas 0,36 exaFLOPS. Cada pod integra 1,77 PB de memoria HBM3E, interconectado mediante una red de 9,6 Tb/s, garantizando baja latencia y máxima eficiencia.

Ironwood. Así se llaman los nuevos chips de la célebre familia de Tensor Processing Units (TPUs) de Google. La empresa, que comenzó a desarrollarlos en 2015 y lanzó los primeros en 2018, obtiene ahora frutos especialmente interesantes de todo ese esfuerzo: unos chips realmente prometedores no para entrenar modelos de IA, sino para que los usemos más rápido y eficientemente que nunca.

Inferencia, inferencia, inferencia. Estas "TPUv7" estarán disponibles en las próximas semanas y se podrán usar para entrenamiento de modelos de IA, pero están especialmente orientadas a "servir" esos modelos a los usuarios para que puedan usarlos. Es la otra gran pata de los chips de IA, la realmente visible: una cosa es entrenar los modelos y otra muy distinta la de "ejecutarlos" para que respondan a las peticiones de los usuarios.

Eficiencia y potencia por bandera. El avance en las prestaciones de estos chips de IA es enorme, al menos según Google. La empresa afirma que Ironwood ofrece cuatro veces más rendimiento que la generación anterior tanto en entrenamiento como en inferencia, además de que estamos ante "el silicio personalizado más potente y eficiente en energía hasta la fecha". Google ya ha llegado a un acuerdo con Anthropic para que esta última tenga acceso hasta a un millón de TPUs para ejecutar Claude y servirlo a sus usuarios.



La supercomputadoras de IA de Google. Estos chips son los componentes clave del llamado AI Hypercomputer, un sistema de supercomputación integrado que según Google permite reducir en un 28% los costes de IT y un ROI del 353% a los clientes en tres años. O lo que es lo mismo: prometen que si usas estos chips, el retorno de la inversión se multiplicará por más de cuatro en ese plazo.

Casi 10.000 chips interconectados. Los nuevos Ironwood están dotados además de la capacidad de formar parte de unir fuerzas a lo grande. Es posible combinar hasta 9.216 de ellos en un único nodo o pod, lo que teóricamente hace que desaparezcan los cuellos de botella de los modelos más exigentes. La dimensión de este tipo de cluster es enorme, y permite disponer de hasta 1,77 Petabytes de memoria HBM compartida mientras que esos chips se comunican con un ancho de banda de 9,6 Tbps gracias al llmado Inter-Chip Interconnect (ICI).


Más FLOPS que nadie. La empresa también asegura que un "pod Ironwood" (un cluster con esas 9.216 TPUs Ironwood) ofrece 118x más ExaFLOPS FP8 que su mejor competidor. Los FLOPS miden cuántas operaciones matemáticas en coma flotante pueden resolver estos chips por segundo, lo que garantiza que básicamente cualquier carga de trabajo de IA va a ejecutarse en tiempos récord.


NVIDIA cada vez tiene más competencia (y eso es bueno). Los chips de Google son la demostración de esa clara vocación de las empresas de evitar demasiadas dependencias de terceros. Google tiene todos los ingredientes para hacerlo, y sus TPUv7 son la demostración de ello. No es la única, y desde hace tiempo muchas otras empresas de IA buscan crear sus propios chips. El dominio de NVIDIA sigue siendo claro, pero la empresa tiene un pequeño problema.

En inferencia CUDA ya no es tan vital. Una vez que el modelo de IA ya ha sido entrenado, la inferencia opera bajo reglas de juego diferentes a las del entrenamiento. El soporte CUDA sigue siendo un factor relevante, pero su importancia en la inferencia es mucho menor. La inferencia se centra en obtener la respuesta más rápida posible. Aquí los modelos "se compilan" y pueden funcionar de forma óptima en el hardware de destino. Puede que eso haga que esa relevancia de NVIDIA pierda enteros ante alternativas como la de Google.


Fuentes:

https://www.xataka.com/robotica-e-ia/industria-se-obsesiono-entrenar-modelos-ia-google-preparaba-su-jugada-maestra-chips-para-inferencia


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.