Google ha lanzado en Gemini 3 Flash la visión agéntica, una tecnología que mejora el razonamiento visual de su IA para analizar imágenes con mayor precisión y contexto.
Google ha mejorado la forma en la que Gemini "ve" las imágenes, usando razonamiento. Así es como funciona.
Una de las cosas que la mayoría de la gente no sabe, es que la inteligencia artificial no es capaz de ver, ni sabe lo que hay en una imagen. Cuando describe detalladamente una fotografía, es el resultado de interpretar un conjunto de píxeles, en función de su entrenamiento. Interpreta, no ve. Por eso Google ha introducido la Agentic Vision o Visión Agéntica, a Gemini 3 Flash.
Los modelos de IA como Gemini procesan el mundo que “ven” con una sola mirada estática. Si se les escapa un detalle minucioso, como el número de serie de un microchip o una señal de tráfico lejana, se ven obligados a adivinarlo. Por eso cometen errores.
Agentic Vision en Gemini 3 Flash cambia radicalmente la forma de analizar una imagen. En lugar de echar un solo vistazo general e intentar adivinar, ahora la IA de Google investiga la imagen con un modelo de razonamiento, e incluso es capaz de escribir código en tiempo real para aplicar un zoom y precisar más lo que ve.
Así funciona la Visión Agéntica de Google
Tal como explica Google en su blog, Agentic Vision lleva a cabo tres pasos en el reconocimiento de las imágenes: pensamiento, acción y observación.
Durante el ciclo de Pensamiento, la IA analiza la consulta del usuario y la imagen inicial, y formula un plan de varios pasos.
En el ciclo de Acción, genera y ejecuta código Python para manipular las imágenes (por ejemplo, recortarlas, rotarlas, anotarlas) o analizarlas (realizar cálculos, contar cuadros delimitadores, etc.), para entenderla mejor.
En el ciclo de Observación, la imagen transformada se añade a la ventana de contexto. Esto permite a la IA inspeccionar los nuevos datos con un mejor contexto antes de generar una respuesta final.
Como se ve en la gráfica anterior, con esta nueva técnica Google asegura que mejora el reconocimiento de imágenes entre el 5 y el 10%, en diferentes benchmarks. Quizá no parezca mucho, pero cuando hablamos de reducir fallos en una tarea vital como es reconocer imágenes, que pueden formar parte de un informe de la policía o un trabajo profesional, es una mejora importante.
Agentic Vision ya está disponible a través de la API Gemini en Google AI Studio y Vertex AI. También está en la aplicación Gemini dentro del menú desplegable de Razonamiento. Los desarrolladores pueden probar la demo en Google AI Studio o experimentar con la función en AI Studio Playground activando Ejecución de código en Tools.



No hay comentarios:
Publicar un comentario