Blog elhacker.NET: Stable Diffusion 2.0, una AI capaz de sintetizar y modificar imágenes

Stable Diffusion 2.0, una AI capaz de sintetizar y modificar imágenes

viernes, 25 de noviembre de 2022 | Publicado por el-brujo | Editar entrada

Stability AI ha dado conocer mediante una publicación de blog la segunda edición del sistema de aprendizaje automático Stable Diffusion, que es capaz de sintetizar y modificar imágenes en función de una plantilla sugerida o una descripción de texto en lenguaje natural.

High-Resolution Image Synthesis with Latent Diffusion Models (A.K.A. LDM & Stable Diffusion)

Stable Diffusion es un modelo de aprendizaje automático desarrollado por Stability AI para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.

A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto1 y no limita artificialmente las imágenes que produce. Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.

El equipo dinámico de Robin Rombach ( Stability AI ) y Patrick Esser ( Runway ML ) del CompVis Group en LMU Munich encabezado por el Prof. Dr. Björn Ommer , dirigió el lanzamiento original de Stable Diffusion V1. Se basaron en su trabajo anterior del laboratorio con modelos de difusión latente y obtuvieron el apoyo fundamental de LAION y Eleuther AI . Puede leer más sobre el lanzamiento original de Stable Diffusion V1 en nuestra publicación de blog anterior . Robin ahora lidera el esfuerzo con Katherine Crowson en Stability AI para crear la próxima generación de modelos de medios con nuestro equipo más amplio.

Stable Diffusion 2.0 ofrece una serie de grandes mejoras y características en comparación con la versión V1 original

Principales novedades de Stable Diffusion 2.0

En esta nueva versión que se presenta se ha creado un nuevo modelo de síntesis de imágenes basado en descripción de texto «SD2.0-v», que soporta la generación de imágenes con una resolución de 768×768. El nuevo modelo se entrenó utilizando la colección LAION-5B de 5850 millones de imágenes con descripciones de texto.

El modelo utiliza el mismo conjunto de parámetros que el modelo Stable Diffusion 1.5, pero se diferencia por la transición al uso de un codificador OpenCLIP-ViT/H fundamentalmente diferente, lo que hizo posible mejorar significativamente la calidad de las imágenes resultantes.

Se ha preparado una versión simplificada de SD2.0-base, entrenada en imágenes de 256×256 usando el modelo clásico de predicción de ruido y soportando la generación de imágenes con una resolución de 512×512.

Además de ello, también se destaca que se brinda la posibilidad de utilizar la tecnología de supermuestreo (Super Resolution) para aumentar la resolución de la imagen original sin reducir la calidad, utilizando algoritmos de escalado espacial y reconstrucción de detalles.

De los demás cambios que se destacan de esta nueva versión:

El modelo de procesamiento de imágenes proporcionado (SD20-upscaler) admite la ampliación 4x, lo que permite generar imágenes con una resolución de 2048×2048.
Stable Diffusion 2.0 también incluye un modelo Upscaler Diffusion que mejora la resolución de las imágenes en un factor de 4.
Se propone el modelo SD2.0-depth2img, que tiene en cuenta la profundidad y disposición espacial de los objetos. Para la estimación de la profundidad monocular se utiliza el sistema MiDaS.
Nuevo modelo de pintura interior guiado por texto, ajustado con precisión en la nueva base de texto a imagen Stable Diffusion 2.0
El modelo permite sintetizar nuevas imágenes utilizando otra imagen como plantilla, que puede ser radicalmente diferente de la original, pero conserva la composición y profundidad general. Por ejemplo, puedes usar la pose de una persona en una foto para formar otro personaje en la misma pose.
Modelo actualizado para modificar imágenes: SD 2.0-inpainting, que permite usar sugerencias de texto para reemplazar y cambiar partes de la imagen.
Los modelos se han optimizado para su uso en sistemas convencionales con una GPU.

Finalmente si estás interesado en poder conocer más al respecto, debes saber que el código de las herramientas para el entrenamiento de redes neuronales y la generación de imágenes está escrito en Python utilizando el marco PyTorch y publicado bajo la licencia MIT.

Los modelos ya entrenados están abiertos bajo la licencia permisiva Creative ML OpenRAIL-M, que permite el uso comercial.

Texto-a-imagen

"Grandes mejoras" como la inclusión de OpenCLIP, un nuevo codificador de texto (responsable de interpretar las instrucciones de los usuarios) que "mejora en gran medida la calidad de las imágenes generadas" y de un nuevo dataset con su correspondiente y mejorado filtro anti-NSFW (es decir, destinado a evitar la generación de imágenes 'sensibles').

Además, los modelos de texto-a-imagen de esta versión de Stable Diffusion pueden generar imágenes con resoluciones predeterminadas de 512x512 píxeles y 768x768 píxeles.

Reescalado

La V2 también incluye un modelo de reescalado capaz de multiplicar por cuatro la resolución de las imágenes. Lo que significa que, en combinación con los modelos de texto-a-imagen, la nueva versión de Stable Diffusion ahora puede generar imágenes con resoluciones de 2048x2048 o superiores.

Profundidad-a-imagen

Depth2img es un modelo "guiado por profundidad", una novedad incorporada a la V2 que "infiere la profundidad de una imagen de entrada (usando un modelo existente) y luego genera nuevas imágenes usando tanto el texto como la información de profundidad".

"Ofrece todo tipo de nuevas aplicaciones creativas, brindando transformaciones que se ven radicalmente diferentes del original, pero que aún conservan la coherencia y la profundidad de esa imagen".

Fuentes:

https://blog.desdelinux.net/stable-diffusion-2-0-una-ai-capaz-de-sintetizar-y-modificar-imagenes/

https://www.genbeta.com/actualidad/esta-aqui-stable-diffusion-v2-nueva-version-esta-ia-que-dibuja-anade-nueva-modalidad-generacion-imagenes

https://stability.ai

Etiquetas: IA , imágenes , inteligencia artificial

2 comentarios :

Andres Vegas dijo...: Muy buen artículo muchas gracias!
La verdad es que la IA está muy por delante ahora en estos dias, me deja sorprendido que mas se puede ir haciendo con esto.; 12 de enero de 2023 a las 4:42
Anónimo dijo...: que comeremos en el 2024- ji-ji-je; 15 de enero de 2023 a las 0:09

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares