Blog elhacker.NET: Meta presenta Llama 3.2, su IA de código abierto capaz de comprender imágenes

Meta presenta Llama 3.2, su IA de código abierto capaz de comprender imágenes

viernes, 27 de septiembre de 2024 | Publicado por el-brujo | Editar entrada

Meta presentó Llama 3.2, su primer modelo de lenguaje multimodal de código abierto capaz de procesar imágenes y texto. A unos meses del lanzamiento de Llama 3.1, Mark Zuckerberg y compañía vuelven a la carga con una IA que comprende imágenes, generación de texto multilingüe y más. La familia incluye dos modelos livianos optimizados para ARM que pueden ejecutarse en procesadores de Qualcomm y MediaTek.

A unos meses del lanzamiento de Llama 3.1, Meta vuelve a la carga con Llama 3.2, una IA multimodal capaz de comprender imágenes.

De acuerdo con Meta, Llama 3.2 admiten casos de uso de razonamiento de imágenes, como la comprensión de tablas y gráficos, subtítulos, localización de objetos y más. La nueva IA multimodal es capaz de extraer detalles de una foto y escribir una oración o dos que podrían utilizarse como identificador o para ayudar a contar una historia.

Durante la presentación en la keynote de Meta Connect, Mark Zuckerberg mostró la integración de Llama 3.2 en sus aplicaciones más populares. Por ejemplo, el asistente Meta AI que se encuentra integrado en WhatsApp, Messenger, Instagram y Facebook, entiende lo que estás mirando. Puedes enviarle una foto y preguntarle acerca de ella, o compartir una imagen de un platillo para obtener una receta de su preparación.

El carácter multimodal de Llama 3.2 también permitirá sacarle provecho en la edición de fotos. Zuckerberg presentó una demo en la que Meta AI añade patines, rodilleras y un casco de seguridad a una fotografía a partir de una instrucción (prompt). La IA puede efectuar otros ajustes, como cambiar nuestra ropa, eliminar el fondo y más.

Llama 3.2 planta cara a GPT-4o mini y otros modelos comerciales de IA

Según la tecnológica, Llama 3.2 es competitivo cuando se mide con otros modelos comerciales. En algunos casos, el modelo de código abierto de Meta supera a Claude 3 Haiku y GPT-4o mini demuestra un rendimiento excepcional en pruebas de reconocimiento de imágenes y comprensión visual.

La familia Llama 3.2 incluye dos modelos multimodales: uno con 90.000 millones de parámetros y otro con 11.000 millones. La oferta se completa con Llama 3.2, 1B y 3B, que admiten una longitud de contexto de 128K tokens y son capaces de llevar a cabo resúmenes, reescritura y toda clase de instrucciones que se ejecutan en un dispositivo local. Los modelos ligeros están optimizados para ARM y pueden resolver múltiples tareas con una latencia mínima.

La llegada de Llama 3.2 ocurre a escasos dos meses del lanzamiento de su predecesor. Meta ha invertido una cantidad considerable de tiempo (y datos) para entrenar a su modelo de última generación. Al igual que vimos con Llama 3.1, la nueva versión del modelo de lenguaje mantiene su compromiso con el código abierto.

"Hoy en día, varias empresas tecnológicas están desarrollando modelos cerrados líderes. Pero el código abierto está cerrando rápidamente la brecha", dijo Zuckerberg en una cara publicada en julio. "El año pasado, el Llama 2 solo era comparable a una generación anterior de modelos detrás de la frontera. "Este año, Llama 3 es competitivo con los modelos más avanzados y líder en algunas áreas".

Llama 3.2 está disponible para todos los desarrolladores a partir de hoy. Junto con el lanzamiento, Meta compartió la guía de uso responsable y una web con herramientas y recursos para sacarle provecho a su IA.

Fuentes:

https://hipertextual.com/2024/09/meta-presenta-llama-3-2-ia-multimodal

Etiquetas: inteligencia artificial , llama , meta

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares

Meta presenta Llama 3.2, su IA de código abierto capaz de comprender imágenes

Llama 3.2 planta cara a GPT-4o mini y otros modelos comerciales de IA

0 comentarios :

Publicar un comentario