Entradas Mensuales

Síguenos en:

Canal Oficial Telegram de elhacker.NET Grupo Facebook elhacker.NET Twitter elhacker.NET Canal Youtube elhacker.NET Comunidad Steam: Grupo elhacker.NET Mastodon

Entradas populares

PostHeaderIcon Adiós, Photoshop: Gemini ahora te permite editar imágenes de forma conversacional y gratis


La semana pasada, Google le dio un buen repaso a la oferta de LLM (Grandes Modelos de Lenguaje) en Gemini. Los usuarios de cuentas gratuitas dijeron adiós a los modelos 1.5 y la bienvenida a 2.0 Flash, 2.0 Flash Thinking (experimental), las Gems de Gemini y la función Deep Research, mientras que los suscriptores de Gemini Advanced ganaron el modelo 2.0 Pro (Experimental). Entre todas estas novedades, pasó desapercibido que Gemini 2.0 Flash pasaba a contar con generación nativa de imágenes, pero con una diferencia muy importante frente a competidores como ChatGPT, que las crea mediante DALL-E: no solo genera imágenes a partir de un prompt, sino que el usuario también puede subirlas y editarlas. Como si estuviera usando Photoshop, pero mediante lenguaje natural y pidiéndole con instrucciones escritas lo que quiere en cada momento. No es una capacidad aún perfecta, pero sí funciona razonablemente bien y pone la edición de imágenes al alcance de cualquiera, sin necesidad de ningún software caro y complicado de usar.




  • Gemini 2.0 Flash (Image Generation) Experimental es el primer LLM conversacional que genera imágenes de forma nativa y está disponible para todos los usuarios de cuentas de Google en Google AI Studio.

Cómo acceder al Photoshop conversacional de Gemini

Gemini 2.0 Flash (Image Generation) Experimental no está disponible en la web o la app de Gemini, sino a través de Google AI Studio. Probablemente porque Google está escarmentada de su primer intento de dotar a Gemini de capacidades generativas de imagen, que se saldó hace un año con su suspensión por ser demasiado woke.



Google AI Studio es una plataforma de desarrollo de inteligencia artificial que permite a los desarrolladores crear y entrenar modelos de aprendizaje automático de manera más sencilla y eficiente, pero que cualquiera con una cuenta de Google puede utilizar de forma gratuita y aprovechar el acceso que da a una larga lista de modelos de lenguaje de Google. Lo único que tienes que hacer es seleccionar en el menú Model, en la columna de la izquierda, la opción Gemini 2.0 Flash (Image Generation) Experimental.

Este modelo de lenguaje saltó a los titulares por su capacidad para eliminar marcas de agua en fotografías, lo que evidentemente supone un problema para empresas como Shutterstock o Getty Images. Las sustituye por una marca SynthID, tecnología desarrollada por Google DeepMind que permite identificar imágenes generadas o modificadas mediante IA, reemplazando así la marca de agua original por una de Editado con IA. Dista de ser un método confiable, dado que también es posible eliminar marcas de IA con herramientas de IA.

Qué puedes hacer en las imágenes mediante instrucciones escritas

Pero por lo que resulta rompedor es por permitir a los usuarios editar imágenes como si estuvieran utilizando Photoshop, aunque mediante una interfaz de lenguaje natural intuitiva. Con solo pedírselo por escrito, Gemini 2.0 Flash puede agregar objetos, eliminarlos, modificar escenarios, cambiar la iluminación, ajustar los ángulos, acercar o alejar la imagen y realizar otras transformaciones, respetando la coherencia del mundo representado.

Photoshop no está al margen de la revolución IA, y Adobe ha ido añadiendo capacidades de este tipo a sus herramientas en los últimos meses. La función Relleno generativo permite manipular imágenes mediante instrucciones escritas, pero su uso no resulta tan natural como Gemini 2.0 Flash.

Los resultados no siempre ofrecen la misma calidad, pero Gemini 2.0 Flash es un modelo ligero diseñado para responder de forma rápida y consumiendo pocos recursos. No es tan potente como la versión completa, pero está dando sus primeros pasos en la generación de imágenes, y lo esperable es ver cómo mejoran sus resultados en futuras iteraciones.

Diferencia entre la generación de imágenes en Gemini 2.0 Flash y otros modelos

La diferencia entre la generación de imágenes de Gemini 2.0 Flash y otros modelos como ChatGPT es que mientras en este último se recurre a un modelo de IA independiente basado en tecnología de difusión (DALL-E en el caso de OpenAI, que utiliza un principio de síntesis diferente al de los LLM) para generar imágenes, que luego se muestran al usuario dentro de la interfaz de chat, Gemini 2.0 Flash es tanto el modelo de lenguaje grande como el generador de imágenes de IA en un solo sistema.

OpenAI avanzó el año pasado que GPT-4o también era capaz de generar imágenes de forma nativa, pero esta capacidad no se ha llevado aún al producto final. Probablemente por el alto coste computacional y los riesgos relacionados con la seguridad que presenta la generación de imágenes con IA.

Otros aspectos en los que destaca la generación de imágenes de Gemini 2.0 Flash (Image Generation) Experimental son mantener la consistencia de los personajes a través de imágenes sucesivas y la representación de texto, aspectos en los que otros modelos todavía tienen serias dificultades.


Fuentes:
https://www.larazon.es/tecnologia/adios-photoshop-gemini-ahora-permite-editar-imagenes-forma-conversacional-gratis_2025031867d9d9d2de9a6f0001b244d8.html


0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.