Blog elhacker.NET: Generar imágenes mediante IA con Stable Diffusion

Generar imágenes mediante IA con Stable Diffusion

martes, 18 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Stable Diffusion XL (SDXL) es el último modelo de imagen AI que puede generar personas realistas, texto legible y diversos estilos artísticos con una excelente composición de imagen. Se trata de una versión más grande y mejorada del célebre modelo Stable Diffusion v1.5, y de ahí el nombre SDXL.

Stable Diffusion XL 1.0 model

Las mejoras son

Imágenes de mayor calidad
Sigue más de cerca la indicación
Más detalles
Mayor tamaño de imagen
Capacidad para generar texto legible
Capacidad para producir imágenes más oscuras

Contenidos:

Qué es el modelo SDXL.
Mi resultado de la prueba de comparar las imágenes generadas con los modelos v1 y SDXL.
Ejecutando SDXL 1.0 en AUTOMATIC1111 Stable Diffusion WebUI.

¿Qué es el modelo Stable Diffusion XL?

El modelo Stable Diffusion XL (SDXL) es la actualización oficial del modelo v1.5. El modelo se publica como software de código abierto.

Número de parámetros

Se trata de un modelo mucho más amplio. En el mundo de la IA, podemos esperar que sea mejor. El número total de parámetros del modelo SDXL es de

3.500 millones (modelo SDXL Base)
6.600 millones (modelo SDXL Base + refinador)

En comparación con los 0.980 millones del modelo v1.5.
Diferencias entre los modelos SDXL y v1.5

El modelo SDXL es, en la práctica, dos modelos. Se ejecuta el modelo base, seguido del modelo refinador. El modelo base establece la composición global. El modelo refinador añade detalles más precisos. (Opcionalmente, puede ejecutar sólo el modelo base).

El modelo de lenguaje (el módulo que entiende tus prompts) es una combinación del modelo más grande de OpenClip (ViT-G/14) y el ViT-L propietario de CLIP de OpenAI. Esta es una elección inteligente porque Stable Diffusion v2 utiliza OpenClip solo y es difícil de promptear. Traer de vuelta el CLIP de OpenAI hace que los avisos sean más fáciles. Los prompts que funcionan en v1.5 tendrán una buena oportunidad de funcionar en SDXL.

El modelo SDXL tiene un nuevo condicionante de tamaño de imagen que pretende utilizar imágenes de entrenamiento menores de 256×256. Esto aumenta significativamente los datos de entrenamiento al no descartar el 39% de las imágenes.

La U-Net, la parte más crucial del modelo de difusión, es ahora 3 veces mayor. Junto con el modelo de lenguaje más grande, el modelo SDXL genera imágenes de alta calidad que se ajustan perfectamente a la petición.

El tamaño de imagen por defecto de SDXL es de 1024×1024. Este tamaño es 4 veces mayor que el de 512×512 del modelo v1.5.

Imágenes de muestra de SDXL

Los usuarios prefieren abrumadoramente el modelo SDXL al modelo 1.5 (figura del artículo de investigación)

Según el propio estudio de Stability AI, la mayoría de los usuarios prefieren las imágenes del modelo SDXL al modelo base v1.5. Encontrarás una serie de imágenes generadas con las mismas indicaciones a partir de los modelos v1.5 y SDXL. Puedes decidir por ti mismo.

Descargar e instalar los modelos SDXL 1.0

Puedes encontrar los modelos SDXL base, refiner y VAE en el siguiente repositorio.

Aquí están los enlaces de descarga directa de los archivos del modelo safetensor. Por lo general, no es necesario descargar el archivo VAE a menos que planee probar diferentes.

Para instalar los modelos en AUTOMATIC1111, poner la base y los modelos de refinador en la carpeta stable-diffusion-webui > models > Stable-diffusion.

Consejos sobre el uso del modelo SDXL 1.0

El personal de A Stability AI ha compartido algunos consejos sobre el uso del modelo SDXL 1.0. He aquí el resumen.

Tamaño de la imagen

El tamaño nativo es 1024×1024. SDXL admite diferentes relaciones de aspecto, pero la calidad es sensible al tamaño. Estos son los tamaños de imagen utilizados en DreamStudio, el generador de imágenes oficial de Stability AI

1:1 – 1024 x 1024
5:4 – 1152 x 896
3:2 – 1216 x 832
16:9 – 1344 x 768
21:9 – 1536 x 640

Utiliza la extensión Aspect Ratio Selector para cambiar cómodamente a estos tamaños de imagen. Añada las siguientes líneas a resolutions.txt en la carpeta de la extensión (stable-diffusion-webui\extensions\sd-webui-ar).

XL1:1, 1024, 1024
XL5:4, 1152, 896
XL3:2, 1216, 832
XL16:9, 1344, 768
XL21:9, 1536, 640

Indicación negativa

Las indicaciones negativas no son tan necesarias en los modelos 1.5 y 2.0. Muchos términos negativos comunes son inútiles, por ejemplo, Dedos de más.

Ponderación de palabras clave

No es necesario utilizar una ponderación de palabras clave alta como en los modelos v1. 1,5 es muy alto para el modelo SDXL. Es posible que tengas que reducir los pesos cuando reutilices las indicaciones de los modelos v1. Reducir un peso funciona mejor que aumentarlo.

Safetensor

Utiliza siempre la versión safetensor, no la versión checkpoint. Es más segura y no ejecutará códigos en su máquina.
Intensidad del refinador

Utiliza una intensidad de refinador baja para obtener el mejor resultado.

Refinador

Utiliza una imagen con ruido para obtener el mejor resultado del refinador.

Ejecutar modelo SDXL en AUTOMATIC1111

AUTOMATIC1111 Web-UI ahora soporta los modelos SDXL de forma nativa. Ya no es necesaria la extensión SDXL demo para ejecutar el modelo SDXL.

La actualización que soporta SDXL fue liberada el 24 de Julio de 2023. Es posible que necesite actualizar su AUTOMATIC1111 para utilizar los modelos SDXL.

Uso de los modelos base + refinador

Ahora puede utilizar el modelo refinador con el modelo base en la pestaña txt2img. Necesitas la versión 1.6.0 o superior de WebUI.

Para habilitar el refinador, expande la sección Refinador:

Punto de control: Seleccione el modelo SD XL refiner 1.0.
Conmutar en: Este valor controla en qué paso la canalización cambia al modelo de refinador. Por ejemplo, cambiar a 0,5 y utilizar 40 pasos significa utilizar el modelo base en los primeros 20 pasos y el modelo de refinador en los 20 pasos siguientes. Si se cambia a 1, sólo se utiliza el modelo base.

Haga clic en Generar para convertir texto en imagen.

El cambio a 0,8 y 1,0 (sin utilizar el refinador) son bastante similares. 0,6 produce la imagen de mayor calidad.

¿Qué tal cambiar el número de pasos de muestreo?

Un mayor número de pasos produce imágenes de calidad ligeramente superior. Pero la diferencia es mínima por encima de 30 pasos.

En resumen, yo usaría 30 pasos y cambiaría a 0.6 para generar imágenes con base + refinador.

Usando estilos preestablecidos para SDXL

DreamStudio, el generador oficial de Stable Diffusion, tiene una lista de estilos preestablecidos disponibles. En realidad se implementan añadiendo palabras clave al prompt y al prompt negativo. Puedes instalar la extensión StyleSelectorXL para añadir la misma lista de estilos predefinidos a AUTOMATIC1111.

Instalando la extensión StyleSelectorXL

Para instalar la extensión, navegue a la página de Extensiones en AUTOMATIC1111. Seleccione la pestaña Instalar desde URL. Ponga lo siguiente en la URL para el repositorio git de la extensión.

https://github.com/ahgsql/StyleSelectorXL

Presione Instalar. Después de que veas la confirmación de instalación exitosa, reinicia completamente la Web-UI de AUTOMATIC1111.

Usando el selector de estilo SDXL

Deberías ver aparecer una nueva sección en la página txt2img.

Escribe el prompt y el prompt negativo como de costumbre. Asegúrate de que la opción Estilos SDXL está activada. Selecciona un estilo que no sea base para aplicar un estilo.

Isométrico
Fotográfico
Anime
Cómic
Estilos preestablecidos SDXL.

Algunas notas sobre SDXL

Asegúrate de utilizar un tamaño de imagen de 1024 x 1024 o similar. 512×512 no funciona bien con SDXL.

Normalmente no se utiliza el modelo refinador con un modelo SDXL ajustado. El estilo puede no ser compatible.

Preguntas frecuentes

¿Puedo utilizar SDXL en Mac?

Sí, necesitará un Mac con Apple Silicon M1 o M2. Asegúrese de que su AUTOMATIC1111 está actualizado. Consulte el tutorial de instalación.
¿Puedo utilizar ControlNet con los modelos SDXL?

Actualmente ControlNet sólo funciona con modelos v1. SDXL no está soportado.

Pero parece que se está trabajando en ello.
¿Qué tamaños de imagen debo utilizar con los modelos SDXL?

A continuación se indican los tamaños de imagen recomendados para las distintas relaciones de aspecto.

21:9 – 1536 x 640
16:9 – 1344 x 768
3:2 – 1216 x 832
5:4 – 1152 x 896
1:1 – 1024 x 1024

Recursos de Stable Diffusion XL

SDXL prompts: Empiece rápidamente con estas instrucciones.
Styles for SDXL: Demostración de más de cien estilos.
SDXL Artist browser: Investiga los estilos artísticos en Stable Diffusion XL.

Optimizar Stable Diffusion XL

Conseguiremos generar imágenes con SDXL utilizando tan solo 4 GB de memoria, por lo que será posible utilizar una tarjeta gráfica de gama baja.

Antes había que optimizar los mecanismos de atención instalando librerías como xFormers o FlashAttention.

Si te preguntas por qué en este artículo no aparece mención a estas optimizaciones, es porque ya no hacen falta. Desde la llegada de PyTorch 2.0, la optimización de estos algoritmos está integrada en la propia librería a través de varias implementaciones (como estas dos mencionadas). PyTorch utilizará la implementación adecuada según los inputs y el hardware en uso.

FP16

Por defecto Stable Diffusion XL utiliza el formato de coma flotante de 32 bits (FP32) para representar los números con los que trabaja y realiza cálculos.

La pregunta obvia es... ¿se puede bajar la precisión? La respuesta es sí. Al utilizar el parámetro torch_dtype=torch.float16, el modelo se carga en memoria en formato de coma flotante de media precisión (FP16). Para evitar realizar esta conversión constantemente podemos descargar el modelo en formato FP16, ya que se distribuye esa variante. Basta con incluir el parámetro variant='fp16'.

Fuentes:
https://stable-diffusion-art.com/sdxl-model/
https://www.felixsanz.dev/es/articulos/guia-definitiva-para-optimizar-stable-diffusion-xl

Etiquetas: IA , manual , stable diffusion , tutorial

0 comentarios :

Publicar un comentario

Los comentarios pueden ser revisados en cualquier momento por los moderadores.

Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.

Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.

Productos FTTH

Tutoriales y Manuales

Entradas Mensuales

Síguenos en:

Blogroll

Etiquetas

Entradas populares