Blog elhacker.NET: NVIDIA Nemotron 3 Nano Omni dota de sentidos a los agentes de IA

NVIDIA Nemotron 3 Nano Omni dota de sentidos a los agentes de IA

jueves, 30 de abril de 2026 | Publicado por el-brujo | Editar entrada

NVIDIA lanzó Nemotron 3 Nano Omni, un modelo de IA multimodal abierto que permitirá a los agentes de IA procesar texto, imágenes, vídeo y audio de forma integrada, funcionando como sus "ojos y oídos".

NVIDIA presentó esta mañana a Nemotron 3 Nano Omni, que es el nombre que recibe su nuevo modelo de IA multimodal abierto diseñado para actuar como los “ojos y oídos” de los agentes de inteligencia artificial. La idea de NVIDIA es muy sencilla. En vez de utilizar modelos separados para interpretar texto, imágenes, vídeo, audio, documentos o interfaces gráficas, NVIDIA propone un único modelo capaz de procesar todas esas entradas dentro de un mismo flujo de razonamiento. NVIDIA indica que gracias a su modelo se reduce la latencia, el coste y la pérdida de contexto entre modalidades.

El modelo llega como una pieza más de la familia Nemotron 3, pero con un enfoque claramente orientado a empresas y desarrolladores que están construyendo agentes capaces de trabajar con pantallas, grabaciones, PDFs, tablas, gráficos, llamadas, vídeos o documentación compleja. NVIDIA lo posiciona como un subagente de percepción multimodal. Es decir, no necesariamente como el modelo que planifica toda la tarea, sino como el componente encargado de entender qué aparece en pantalla, qué se escucha en un audio, qué contiene un documento o qué ocurre en un vídeo.

Qué significa NVIDIA Nemotron 3 Nano Omni a nivel técnico

A nivel técnico, Nemotron 3 Nano Omni utiliza una arquitectura 30B-A3B. Esto significa que cuenta con unos 30.000 millones de parámetros totales, pero activa alrededor de 3.000 millones por inferencia gracias a su diseño Mixture of Experts. La arquitectura combina un backbone híbrido Mamba-Transformer-MoE, un codificador visual C-RADIOv4-H para imágenes y vídeo, y un codificador de voz Parakeet para audio y transcripción. NVIDIA también destaca el uso de Conv3D para procesar vídeo de forma más eficiente y Efficient Video Sampling para reducir tokens redundantes en escenas donde buena parte de la imagen no cambia.

NVIDIA afirma que Nemotron 3 Nano Omni alcanza hasta 9 veces más rendimiento que otros modelos omni abiertos manteniendo la misma interactividad. Mientras que en su blog técnico concreta mejoras de hasta 9,2x en razonamiento sobre vídeo y 7,4x en razonamiento multidocumento frente a alternativas abiertas bajo umbrales similares de respuesta por usuario. Este punto es clave para despliegues empresariales, porque no se trata solo de “ser más listo”, sino de atender más usuarios o procesar más contenido con la misma infraestructura. Ideal para contener los costes.

NVIDIA reporta 57,5 puntos en MMLongBench-Doc, frente a 38,0 de Nano V2 VL y 49,5 de Qwen3-Omni. 47,4 puntos en OSWorld, frente a 11,0 y 29,0 respectivamente. Y 72,2 puntos en Video-MME, frente a 63,0 y 70,5. En audio, también aparece ligeramente por encima de Qwen3-Omni en VoiceBench y ASR HF Open ASR, donde una cifra más baja es mejor.

NVIDIA ya cuenta con clientes muy importantes en adoptar su tecnología: destaca Palantir

La estrategia de NVIDIA es clara y la llevamos viendo ya años. NVIDIA ya no se limita a vender GPUs para ejecutar modelos de terceros, sino ofrecer una pila completa que incluye modelos abiertos, herramientas de entrenamiento, cuantización, inferencia optimizada, despliegue en local, nube y edge. La compañía recalca que Nemotron 3 Nano Omni se lanza con conjuntos de datos y recetas de entrenamiento, lo que facilita personalización, despliegue en las propias instalaciones y control sobre los datos.

Entre las empresas de inteligencia artificial y software que ya han adoptado Nemotron 3 Nano Omni se encuentran Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir y Pyler, mientras que Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle y Zefr están evaluando el modelo.

Palantir es un nombre clave. Palantir es un contratista tecnológico muy vinculada a defensa, inteligencia, seguridad nacional, policía y gobiernos. Para ellos, un modelo que interpreta documentos, gráficos, tablas, capturas, vídeo y audio puede integrarse como capa de percepción dentro de agentes que trabajen sobre datos corporativos complejos. NVIDIA menciona precisamente la inteligencia documental, el análisis de gráficos/tablas y los flujos de cumplimiento empresarial como casos centrales.

Fuentes:
https://elchapuzasinformatico.com/2026/04/nvidia-nemotron-3-nano-omni-modelo-ia-ojos-y-oidos-agentes/

Etiquetas: agente , IA , modelo , multimodal , nemotron3 , nvidia , tecnología

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

NVIDIA Nemotron 3 Nano Omni dota de sentidos a los agentes de IA

Qué significa NVIDIA Nemotron 3 Nano Omni a nivel técnico

NVIDIA ya cuenta con clientes muy importantes en adoptar su tecnología: destaca Palantir

0 comentarios :

Publicar un comentario