Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon La visión agéntica que Google ha estrenado en Gemini 3 Flash


Google ha lanzado en Gemini 3 Flash la visión agéntica, una tecnología que mejora el razonamiento visual de su IA para analizar imágenes con mayor precisión y contexto.





Google ha mejorado la forma en la que Gemini "ve" las imágenes, usando razonamiento. Así es como funciona.

Una de las cosas que la mayoría de la gente no sabe, es que la inteligencia artificial no es capaz de ver, ni sabe lo que hay en una imagen. Cuando describe detalladamente una fotografía, es el resultado de interpretar un conjunto de píxeles, en función de su entrenamiento. Interpreta, no ve. Por eso Google ha introducido la Agentic Vision o Visión Agéntica, a Gemini 3 Flash.

Los modelos de IA como Gemini procesan el mundo que “ven” con una sola mirada estática. Si se les escapa un detalle minucioso, como el número de serie de un microchip o una señal de tráfico lejana, se ven obligados a adivinarlo. Por eso cometen errores.

Agentic Vision en Gemini 3 Flash cambia radicalmente la forma de analizar una imagen. En lugar de echar un solo vistazo general e intentar adivinar, ahora la IA de Google investiga la imagen con un modelo de razonamiento, e incluso es capaz de escribir código en tiempo real para aplicar un zoom y precisar más lo que ve.



 

Así funciona la Visión Agéntica de Google

Tal como explica Google en su blog, Agentic Vision lleva a cabo tres pasos en el reconocimiento de las imágenes: pensamiento, acción y observación.

Durante el ciclo de Pensamiento, la IA analiza la consulta del usuario y la imagen inicial, y formula un plan de varios pasos.

En el ciclo de Acción, genera y ejecuta código Python para manipular las imágenes (por ejemplo, recortarlas, rotarlas, anotarlas) o analizarlas (realizar cálculos, contar cuadros delimitadores, etc.), para entenderla mejor.

 

En el ciclo de Observación, la imagen transformada se añade a la ventana de contexto. Esto permite a la IA inspeccionar los nuevos datos con un mejor contexto antes de generar una respuesta final.

Como se ve en la gráfica anterior, con esta nueva técnica Google asegura que mejora el reconocimiento de imágenes entre el 5 y el 10%, en diferentes benchmarks. Quizá no parezca mucho, pero cuando hablamos de reducir fallos en una tarea vital como es reconocer imágenes, que pueden formar parte de un informe de la policía o un trabajo profesional, es una mejora importante.

Agentic Vision ya está disponible a través de la API Gemini en Google AI Studio y Vertex AI. También está en la aplicación Gemini dentro del menú desplegable de Razonamiento. Los desarrolladores pueden probar la demo en Google AI Studio o experimentar con la función en AI Studio Playground activando Ejecución de código en Tools.


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.