Tutoriales y Manuales
Entradas Mensuales
-
▼
2025
(Total:
272
)
-
▼
febrero
(Total:
107
)
-
Microsoft presenta Phi-4-multimodal, su IA para pr...
-
NVIDIA Cuda
-
Clonación de llaves electrónicas permite robar veh...
-
GPU NVIDIA A100 para IA
-
Grupo Lazarus de Corea del Norte se hace con un bo...
-
OWASP Top 10 para aplicaciones de modelos de lengu...
-
En México usan citas falsas del SAT para propagar ...
-
Ciberataque en México: grupo de ransomware Lockbit...
-
Microsoft está probando una versión de Office para...
-
Los servicios de VPN podrían abandonar Francia si ...
-
Google presenta Gemini Code Assist, una IA gratuit...
-
Ella tiene un tórrido romance con ChatGPT
-
NVIDIA Tesla P40 en un ordenador personal para IA LLM
-
Hackean a Comisiones Obreras - CCOO y amenazan con...
-
Gmail reemplaza los SMS por códigos QR para aument...
-
Anthropic presenta Claude 3.7 Sonnet: la primera I...
-
Un banco Argentino deberá devolverle $140 millones...
-
RAID 10: la combinación de RAID entre espejo y str...
-
Elon Musk pide destruir la Estación Espacial Inter...
-
Detenido por hackear al Betis. Su objetivo: conseg...
-
El primer SSD PCIe Gen5 de Micron con una velocida...
-
Activación permanente de Windows y Office con una ...
-
Cloudflare emprende acciones legales contra LaLiga...
-
Microsoft presenta Muse, un modelo de IA generativ...
-
Ingeniería Social orientada a engañar usuarios par...
-
Vulnerabilidades de seguridad de OpenSSH hace que ...
-
DeepSeek-V3 vs DeepSeek-R1: cuáles son las diferen...
-
GPU: VRAM y FPS ¿Qué relación tienen en el rendimi...
-
PHP: mod_php vs CGI vs FastCGI vs FPM
-
RansomHub fue el principal grupo de ransomware de ...
-
Microsoft bloquea 7.000 ataques a contraseñas por ...
-
Trucos para Telegram
-
Vulnerabilidad crítica en FortiOS Security Fabric ...
-
Steam sufrió un ataque DDoS sin precedentes aunque...
-
Docker Desktop para Windows con WSL o Hyper-V
-
Filtración masiva de datos de IoT con 2.734 millon...
-
Guía de compra GPU - Nomenclatura Tarjetas Gráfica...
-
WhatsApp se integra con Instagram para mostrar enl...
-
Android System SafetyCore
-
Google usará la IA para conocer tu edad y modifica...
-
Apple soluciona una vulnerabilidad Zero-Day explot...
-
Ataques de phishing en imágenes SVG
-
¿Qué es la generación aumentada de recuperación (R...
-
Goku AI: la inteligencia artificial china de códig...
-
AMD prepara una Radeon RX 9070 XTX con 32 GB de me...
-
Tutorial: SSH en Windows (Servidor y Cliente)
-
Túnel TCP con Cloudflare Tunnel
-
"Cambio automático de contraseñas" en Google Chrom...
-
La Unión Europea busca movilizar 200.000 millones ...
-
Microsoft elimina una página de ayuda para desinst...
-
Cloudflare Tunnels
-
¿Qué es una shell inversa?
-
Le Chat, la IA más avanzada hecha en Europa
-
Google Gemini 2.0 Pro IA
-
ChatGPT en WhatsApp
-
Filtrados los datos personales de 3 millones de us...
-
Movistar España bloquea internet en un intento por...
-
Thunderbolt vs USB-C: qué son, diferencias y cómo ...
-
El Reino Unido ordena a Apple que le permita acced...
-
Inteligencia artificial en local en tu PC
-
Qué fuente de alimentación elegir según la tarjeta...
-
Tecnología RTX Neural de nvidia
-
Mizuno confirma ataque ransomware BianLian con fil...
-
Múltiples vulnerabilidades críticas en productos d...
-
WinScript permite personalizar, optimizar y config...
-
Cloudflare Turnstile: una nueva alternativa a reCA...
-
NanaZip 5.0: todas las novedades del mejor compres...
-
Barcelona Supercomputing Center (BSC) estrena prim...
-
Cisco corrige vulnerabilidades críticas de ISE que...
-
Logran ejecutar DOOM en un adaptador de Lightning ...
-
Aprovechan vulnerabilidad de IIS de hace 6 años pa...
-
Exingeniero de Google es acusado en EEUU de robar ...
-
Vulnerabilidad zero-day crítica en Android
-
Verificación de identidad o 'Identity check' : la ...
-
Europa quiere prohibir el envío de consolas a Rusi...
-
La Comisión Europea quiere acabar con la exención ...
-
DeepSeek: Una investigación revela a dónde van tus...
-
Google cambia las directrices de su IA y elimina u...
-
Detenido en Alicante 'Natohub,' de 18 años que hac...
-
Diferencias y velocidades entre PCIe Gen 4 y PCIe ...
-
OCuLink, el mejor conector para gráficas externas ...
-
Así es la pila atómica que ha presentado China cap...
-
Instalar DeepSeek en local en Android con Termux
-
Todos los modelos de IA de OpenAI
-
Las impresoras 3D en Estados Unidos podrían ser in...
-
El Pentágono bloquea DeepSeek en menos de una sema...
-
Limpieza y mantenimiento de una tarjeta gráfica
-
Conectores PCI Express x16, x8, x4 y x1: diferenci...
-
Reportan algunos problemas para las GeForce RTX 5090
-
Microsoft presenta el Surface USB4 Dock por 99$
-
NVIDIA Studio Voice convierte el mediocre micrófon...
-
OpenAI quiere diseñar robots humanoides impulsados...
-
Europa anuncia OpenEuroLLM, su plan para plantarle...
-
OpenAI quiere reemplazar los smartphones con un di...
-
Análisis de las principales vulnerabilidades explo...
-
WhatsApp detecta un ataque de spyware tipo Pegasus...
-
El coste real de DeepSeek no fue de 6 millones de ...
-
Windows Paint tendrá un botón de Copilot para acel...
-
Guía DeepSeek: funciones y cosas que puedes hacer ...
-
Cómo utilizar un SSD NVMe en Raspberry Pi
-
-
▼
febrero
(Total:
107
)
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Gracias a un nuevo método de activación permanente, han conseguido eludir por completo el sistema de protección de derechos digitales (DRM) ...
-
Una semana para pagar el rescate. Ese es el plazo que ha dado al sindicato Comisiones Obreras el grupo Hunter International , una de las or...
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
Microsoft presenta Phi-4-multimodal, su IA para procesamiento simultáneo de voz, imágenes y texto
Microsoft ha presentado Phi-4-multimodal y Phi-4-mini, los últimos integrantes de su familia Phi de modelos de lenguaje pequeños (SLM). Phi-4-multimodal es el primer modelo de la compañía capaz de procesar simultáneamente habla, visión y texto. La nueva IA del gigante tecnológico se desempeña de forma notable en tareas de reconocimiento de voz o traducción, aunque queda corto en otras pruebas frente a los modelos de la competencia.
- El nuevo modelo avanzado procesa voz, imágenes y texto simultáneamente, optimizando interacciones y rendimiento.
De acuerdo con una publicación en la web de Microsoft. Phi-4-multimodal está construido sobre una arquitectura de 5.600 millones de parámetros. El modelo utiliza una mezcla de LoRAs (Low-Rank Adaptations) para integrar diferentes modalidades de entrada en un espacio de representación unificado. Una de las ventajas de usar técnicas de aprendizaje cruzado entre modalidades es que mejora el razonamiento y permite interacciones más contextuales.
Microsoft afirma que su nuevo modelo cuenta con un vocabulario más amplio y soporte multilingüe, mejorando su precisión en el procesamiento del lenguaje. Además, Phi-4-multimodal soporta inferencia de baja latencia, lo que permite ejecutarlo en dispositivos móviles y equipos de gama de entrada.
Según comentan sus desarrolladores, Phi-4-multimodal está diseñado para la eficiencia y escalabilidad, dos términos que se han vuelto populares en los últimos meses. La llegada de DeepSeek y la explosión de modelos pequeños han hecho que desarrolladores consideren los SLM como alternativa ante un LLM. La arquitectura de este nuevo modelo mejora la velocidad y precisión del procesamiento, soportando entradas multilingües e integrando el razonamiento del lenguaje con datos multimodales.
Phi-4-multimodal supera a modelos más grandes de Google y Anthropic
En términos de rendimiento, Phi-4-multimodal supera a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large en pruebas de reconocimiento automático de voz y traducción de voz. El modelo de Microsoft también consigue buenas calificaciones en capacidades de visión, incluyendo Reconocimiento Óptico de Caracteres (OCR), comprensión de documentos y gráficos, así como razonamiento científico visual.
Su arquitectura compacta compite eficazmente con modelos más grandes — como Gemini-2-Flash-lite y Claude-3.5-Sonnet — en capacidades multimodales generales. A pesar de estos logros, Phi-4-multimodal no se desempeña muy bien en tareas de preguntas y respuestas basadas en voz, donde queda rezagado respecto a modelos como Gemini-2.0-Flash y GPT-4o.

Esta brecha se atribuye a su tamaño de modelo más pequeño, que limita su capacidad para retener una cantidad mayor de conocimientos factuales. Microsoft comentó que está trabajando activamente en mejorar esta capacidad en futuras iteraciones.
Junto a Phi-4-multimodal, Microsoft presentó Phi-4-mini, un modelo orientado a tareas basadas en texto. Su arquitectura permite un procesamiento eficiente de entradas de texto sin sacrificar la precisión ni la velocidad, lo que lo convierte en una opción ideal para aplicaciones que requieren comprensión avanzada del lenguaje natural (como chatbots o asistentes virtuales).
Phi-4-multimodal y Phi-4-min están disponibles a partir de hoy en plataformas como Azure AI Foundry, HuggingFace y el Catálogo de API de NVIDIA.
Fuentes:
https://hipertextual.com/2025/02/microsoft-phi-4-multimodal-modelo-ia-voz-imagenes-texto
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.