Tutoriales y Manuales
Entradas Mensuales
-
►
2024
(Total:
1019
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
▼
2022
(Total:
967
)
-
▼
noviembre
(Total:
78
)
- Disponible qBittorrent 4.5
- Meta es multada en Europa con 265M€ por no cumplir...
- Proyecto OWASP: cabeceras de seguridad
- Estados Unidos prohíbe equipos de telecomunicacion...
- Puppet: la navaja suiza para la automatización de ...
- ¿Qué es la función Overdrive de un monitor?
- A la venta casi 500 millones de números de teléfon...
- MEGA Backup, nueva función de copia de seguridad p...
- En San Francisco (EE.UU.) los robots policía ya ti...
- Stable Diffusion 2.0, una AI capaz de sintetizar y...
- Reino Unido pide desconectar cámaras de seguridad ...
- La webcam cumple 31 años y nació para vigilar una ...
- Detectan páginas falsas de MSI Afterburner que min...
- Adobe te obliga a pagar una suscripción para rotar...
- Pagar para desbloquear toda la potencia de los Mer...
- Llevar tu PC o portátil a reparar puede poner en r...
- Los trabajadores del iPhone (FoxConn) en China se ...
- Europa tiene 2 de los 5 superodenadores más potent...
- Generali sufre un ciberataque a sus sistemas de in...
- La página web del Parlamento Europeo, víctima de u...
- Intel On Demand: el pago por desbloquear caracterí...
- Prohiben en las escuelas de Francia usar versiones...
- Wazuh: plataforma de seguridad de código abierto
- Twitter e Instagram preparan el cifrado de extremo...
- Polícia Italiana crea servicio IPTV falso para pod...
- Vanuatu: un país entero paralizado por un ataque d...
- Google pagó 360M$ a Activision Blizzard para evita...
- Donald Trump vuelve a Twitter tras la ajustada enc...
- La nueva Inteligencia Artificial de Google es capa...
- ¿Qué es el Subsistema de Windows para Linux? WSL
- La NSA recomienda dejar de usar C y C++ por altern...
- Meta descubre a más empleados vendiendo cuentas de...
- Arrestados dos rusos responsables de Z-Library, un...
- Los empleados de Twitter dimiten en masa tras el u...
- Tecnología de Intel FakeCatcher es capaz de detect...
- La VPN de Google One disponible para Windows y Mac
- La UE estudia mandar al espacio los centros de dat...
- Seagate presenta discos duros tan rápidos como los...
- Google implementará Privacy Sandbox en Android 13 ...
- Las peores contraseñas del 2022
- Activar el bloqueo dinámico en Windows 10-11 usand...
- PayPal te cobrará una comisión si no la utilizas e...
- Polícia de España desarticula red contenidos pirat...
- Google acuerda pagar una multa de 391 millones $ p...
- El CEO de FTX había implementado una puerta traser...
- C1b3rWall Academy: edición 2022‑2023 del curso gra...
- Dimiten de Twitter los directores de seguridad y p...
- Apple podría estar rastreando a sus usuarios aunqu...
- Detenido un importante operador ruso del ransomwar...
- Un hackeo roba a Hacienda de España datos de medio...
- El Gobierno de Catar hackeó a la FIFA para obtener...
- Crean un casco de realidad virtual que te mata de ...
- Diferencias entre Proxy's, VPN's y TOR
- Las nuevas cuentas verificadas de pago crean confu...
- Mozilla se plantea seguir dando soporte a Firefox ...
- Robados a Telefónica 2 millones de € en iPhones de...
- Herramienta oculta de Facebook te permite eliminar...
- EE.UU. incauta U$S1,4 mil millones en Bitcoin roba...
- ¿Qué es Mastodon? el Twitter descentralizado
- Orange España sufre una filtración de datos privad...
- Encuentran software Gimp con malware en la primera...
- Aumentan los intentos de robo de cuentas verificad...
- Elon Musk despide por error trabajadores de Twitte...
- PortMaster es una aplicación gráfica cortafuegos b...
- El fabricante alemán de neumáticos Continental es ...
- Cómo escanear códigos QR de forma segura
- China podrá acceder a los datos de usuarios europe...
- Un exempleado de Apple se enfrenta a 25 años de pr...
- AMD presenta nuevas tarjetas gráficas Radeon RX 79...
- Flipper Zero: dispositivo para pruebas radiofrecue...
- Google dice adiós a Hangouts y a la app de Street ...
- Elon Musk tiene previsto despedir a la mitad de lo...
- EnCodec es el nuevo códec de audio de Meta
- Los parches de OpenSSL ya están disponibles
- La Guardia Civil detiene a un menor de 17 años por...
- Hackearon el teléfono personal de Liz Truss
- Vulnerabilidades en la interfaz web de dispositivo...
- Elon Musk cobrará 8$ al mes en Twitter por la veri...
- ► septiembre (Total: 72 )
-
▼
noviembre
(Total:
78
)
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Después de ver qué es una vCPU y la diferencia entre núcleos (cores) e hilos en los procesadores, pasamos a explicar toda la nomenclatura d...
-
En el panorama en constante evolución de la seguridad de redes, OpnSense se ha convertido en una formidable solución de firewall. Nacido de...
-
Pese a que Gemini ofrece multitudes de opciones, recientemente, se ha dado a conocer una situación fuera de lo común. Hace unos días, un es...
Stable Diffusion 2.0, una AI capaz de sintetizar y modificar imágenes
Stability AI ha dado conocer mediante una publicación de blog la segunda edición del sistema de aprendizaje automático Stable Diffusion, que es capaz de sintetizar y modificar imágenes en función de una plantilla sugerida o una descripción de texto en lenguaje natural.
- High-Resolution Image Synthesis with Latent Diffusion Models (A.K.A. LDM & Stable Diffusion)
Stable Diffusion es un modelo de aprendizaje automático desarrollado por Stability AI para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.
A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto1 y no limita artificialmente las imágenes que produce. Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.
El equipo dinámico de Robin Rombach ( Stability AI ) y Patrick Esser ( Runway ML ) del CompVis Group en LMU Munich encabezado por el Prof. Dr. Björn Ommer , dirigió el lanzamiento original de Stable Diffusion V1. Se basaron en su trabajo anterior del laboratorio con modelos de difusión latente y obtuvieron el apoyo fundamental de LAION y Eleuther AI . Puede leer más sobre el lanzamiento original de Stable Diffusion V1 en nuestra publicación de blog anterior . Robin ahora lidera el esfuerzo con Katherine Crowson en Stability AI para crear la próxima generación de modelos de medios con nuestro equipo más amplio.
Stable Diffusion 2.0 ofrece una serie de grandes mejoras y características en comparación con la versión V1 original
Principales novedades de Stable Diffusion 2.0
En esta nueva versión que se presenta se ha creado un nuevo modelo de síntesis de imágenes basado en descripción de texto «SD2.0-v», que soporta la generación de imágenes con una resolución de 768×768. El nuevo modelo se entrenó utilizando la colección LAION-5B de 5850 millones de imágenes con descripciones de texto.
El modelo utiliza el mismo conjunto de parámetros que el modelo Stable Diffusion 1.5, pero se diferencia por la transición al uso de un codificador OpenCLIP-ViT/H fundamentalmente diferente, lo que hizo posible mejorar significativamente la calidad de las imágenes resultantes.
Se ha preparado una versión simplificada de SD2.0-base, entrenada en imágenes de 256×256 usando el modelo clásico de predicción de ruido y soportando la generación de imágenes con una resolución de 512×512.
Además de ello, también se destaca que se brinda la posibilidad de utilizar la tecnología de supermuestreo (Super Resolution) para aumentar la resolución de la imagen original sin reducir la calidad, utilizando algoritmos de escalado espacial y reconstrucción de detalles.
De los demás cambios que se destacan de esta nueva versión:
- El modelo de procesamiento de imágenes proporcionado (SD20-upscaler) admite la ampliación 4x, lo que permite generar imágenes con una resolución de 2048×2048.
- Stable Diffusion 2.0 también incluye un modelo Upscaler Diffusion que mejora la resolución de las imágenes en un factor de 4.
- Se propone el modelo SD2.0-depth2img, que tiene en cuenta la profundidad y disposición espacial de los objetos. Para la estimación de la profundidad monocular se utiliza el sistema MiDaS.
- Nuevo modelo de pintura interior guiado por texto, ajustado con precisión en la nueva base de texto a imagen Stable Diffusion 2.0
- El modelo permite sintetizar nuevas imágenes utilizando otra imagen como plantilla, que puede ser radicalmente diferente de la original, pero conserva la composición y profundidad general. Por ejemplo, puedes usar la pose de una persona en una foto para formar otro personaje en la misma pose.
- Modelo actualizado para modificar imágenes: SD 2.0-inpainting, que permite usar sugerencias de texto para reemplazar y cambiar partes de la imagen.
- Los modelos se han optimizado para su uso en sistemas convencionales con una GPU.
Finalmente si estás interesado en poder conocer más al respecto, debes saber que el código de las herramientas para el entrenamiento de redes neuronales y la generación de imágenes está escrito en Python utilizando el marco PyTorch y publicado bajo la licencia MIT.
Los modelos ya entrenados están abiertos bajo la licencia permisiva Creative ML OpenRAIL-M, que permite el uso comercial.
Texto-a-imagen
"Grandes mejoras" como la inclusión de OpenCLIP, un nuevo codificador de texto (responsable de interpretar las instrucciones de los usuarios) que "mejora en gran medida la calidad de las imágenes generadas" y de un nuevo dataset con su correspondiente y mejorado filtro anti-NSFW (es decir, destinado a evitar la generación de imágenes 'sensibles').
Además, los modelos de texto-a-imagen de esta versión de Stable Diffusion pueden generar imágenes con resoluciones predeterminadas de 512x512 píxeles y 768x768 píxeles.
Reescalado
La V2 también incluye un modelo de reescalado capaz de multiplicar por cuatro la resolución de las imágenes. Lo que significa que, en combinación con los modelos de texto-a-imagen, la nueva versión de Stable Diffusion ahora puede generar imágenes con resoluciones de 2048x2048 o superiores.
Profundidad-a-imagen
Depth2img es un modelo "guiado por profundidad", una novedad incorporada a la V2 que "infiere la profundidad de una imagen de entrada (usando un modelo existente) y luego genera nuevas imágenes usando tanto el texto como la información de profundidad".
"Ofrece todo tipo de nuevas aplicaciones creativas, brindando transformaciones que se ven radicalmente diferentes del original, pero que aún conservan la coherencia y la profundidad de esa imagen".
Fuentes:
https://blog.desdelinux.net/stable-diffusion-2-0-una-ai-capaz-de-sintetizar-y-modificar-imagenes/
2 comentarios :
Muy buen artículo muchas gracias!
La verdad es que la IA está muy por delante ahora en estos dias, me deja sorprendido que mas se puede ir haciendo con esto.
que comeremos en el 2024- ji-ji-je
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.