Guía de instalación de Stable Diffusion Web UI en Google Colab

En esta guía aprenderás a como instalar y ejecutar Stable Diffusion (SD) en 10 minutos o menos y de forma super sencilla, para generar tus propias imágenes utilizando una inteligencia artificial, específicamente utilizando el servicio en la nube de Google Colab, por lo que no requerimos de ningún hardware potente para hacerlo funcionar.

Tabla de Contenidos

¿Qué es Stable Diffusion WebUI?

PORTADA

Stable Diffusion WebUI es una interfaz grafica de código abierto amigable con el usuario, esta nos permite el generar imágenes según los modelos de redes neuronales que insertemos. En está guía se instalara un modelo especializado en crear personajes humanoides estilo anime.

¿Qué podemos hacer en SD?

  • Podemos generar imágenes simplemente describiéndolas mediante texto
  • Podemos generar imágenes utilizando otras imágenes
  • Podemos corregir imágenes o hasta eliminar/añadir nuevos elementos a una imagen.
  • Podemos Descensurar imágenes.
  • Podemos re-escalar imágenes a mayores resoluciones.
  • Podemos re-escalar imágenes a mayores resoluciones.
  • Y mucho más...

¿Cuáles son los requisitos para Instalar SD?

  • Una cuenta de Google
  • Eso es todo :D

Instalar Stable Diffusion WebUI

ejemplo

Primer Paso - Abrir Google Colab

En esta guía vamos a estar usando el siguiente Colab Nocript

Image description

Segundo Paso - Hacer una configuración básica del Colab

Todo lo que describo en este paso NO es necesario que lo hagas, pero son mis recomendaciones.

Primera Configuración: Guardar Imágenes en GDrive.
Copia Todas las imágenes que generemos se guardaran automáticamente en nuestro GDrive, cuando ejecutemos la celda nos pedirá permiso para hacer cambios en nuestro Google Drive, es importante dar los permisos. Te recomiendo mucho esta opción debido a que más facilmente podrás revisar tus anteriores prompt y creaciones en caso no las hayas guardado.
latest_webui, latest_extensions, branch y sdxl_patch Recomiendo dejarlas por defecto, Si vienen seleccionadas dejalas así, normalmente siempre va ser lo más estable.
Segunda Configuración: Descargar Modelos ControlNet, revisa tener la opción de 1.1

Copia

El resto de opciones no nos interesan demasiado, con excepción de los modelos y VAE

Si te quedaste con las dudas de para que sirven el resto de configuraciones puedes leer la Documentación de este colab para tener un conocimiento más en profundad de que hace cada opción, en esta guía solo te digo la básico que debes o recomiendo tener.

Tercer Paso - Elegir uno o más Modelos/Checkpoint que te gusten

Aquí es donde empieza de verdad lo interesante, existen infinidad de modelos que puedes usar para generar tus imágenes, los que yo recomiende o use no tienen porque ser los mejores o los que más te van a gustar/cumplir con tus necesidades

Puedes encontrar una gran variedad de modelos en CivitAI como "Checkpoints", busca uno que cumpla con lo que quieres crear, si te gusta el contenido NSFW o por el contrario no lo quieres, si quieres un modelo más especializado a la arquitectura, rostros realistas o fondos...hay mucho donde elegir

image
Tomate tu tiempo en buscar el modelo o los modelos que más te gusten, en el siguiente paso vamos a ver como instalarlos de forma muy sencilla

Pequeña comparativa entre algunos modelos estilo Anime

image image image

Los modelos utilizados para esta comparativa fueron los siguientes: Cetus-Mix, SakushiMix, MeinaMix y Counterfeit

Cuarto Paso - Custom Urls

Este es el paso más importante de esta guía

Por favor leer detenidamente para evitar confusiones

Muy bien, ahora para este punto deberías tener mínimo 1 o 2 modelos que te llame la atención probar, pero ahora como se instalan en el Colab?
Pues no hay una sola respuesta a esa pregunta, por lo que te voy a detallar cada opción.

Primera Opción

Conectar
Es la más fácil de todas, en el Colab ya vienen varios modelos que podemos instalar solo con activarlos, como es el caso del modelo anything-v4.5 por mencionar alguno, solo selecciona uno de los siguientes y ya lo tienes todo listo!

Segunda Opción

Comparativa Si tu modelo que quieres probar no sale en el anterior listado, lo que debes hacer es en la parte de custom_urls agrega el link de descarga Directo a tu modelo. Por ejemplo si te gusta el modelo SakushiMix (voy a estar utilizando este modelo para el resto de la guía), copia su link de descarga directo de esta forma
Comparativa

Si te interesa probar SakushiMix este es su link directo
https://civitai.com/api/download/models/133274
Si te interesa probar Counterfeit-V3.0 este es su link directo
https://civitai.com/api/download/models/57618

Ok, Ya tienes tu link directo de descarga, ¿Ahora Que?
Muy sencillo, solo pegalo dentro de custom_urls
Comparativa

INCLUSO, puedes poner más de un link, solo recuerda que deben ir separados por comas ",", te dejo un ejemplo.

1
2
3
4
5
https://civitai.com/api/download/models/133274, 
https://civitai.com/api/download/models/57618, 
https://huggingface.co/Norisuke193/kl-f8-anime2/resolve/main/kl-f8-anime2.vae.pt, 
Lora/., 
emb/.
  • El primer Link es el Modelo SakushiMix
  • El segundo Link es el Modelo Counterfeit-V3.0
  • Tercer link es el VAE kl-f8-anime2.vae
  • Y por ultimo la carpeta Lora en mi Google Drive donde estan descargos mis LoRa, para carpetas siempre tienen que terminar en /.

Una vez tengas todos los links, cuando se ejecute la celda el colab descargara todos los modelos, LoRas y en general todo lo que este puesto en ese link. (la descarga será bastante rápida independientemente de tu internet), PERO ANTES Necesitas descargar un VAE.

Quinto Paso - Descargar un VAE

Ejemplo
El VAE es super importante para nuestras imágenes, gestiona todo lo que es la coloración de nuestra imagen, si no utilizamos ninguno las imágenes serán muy descoloridas y poco definidas...existen modelos que ya traen un VAE incluido como es el caso de Anything V4.5.

Pero si nuestro modelo no lo trae incluido es importante descargar uno. Podemos elegir uno de los que ya por defecto trae el colab para instalar.
Conectar
Mi recomendación es ir por kl-f8-anime2.vae, pero prueba el que más te guste.
Ejemplo Aquí encuestras el "link" directo de descarga

COMPARATIVA Ejemplo

Nutmegmix.vae.

Si te interesa probar ese VAE lo puedes descargar Aquí bajo el nombre de "Berry's Mix.vae", solo ten en mente que los links de Mega no pueden ser incluidos en los custom_urls, por lo que deberías subirlo a un sitio como Google Drive y pegar su link directo de descarga.

Sexto y Ultimo Paso - Ejecutar la primera celda del Colab

Ejemplo

Una vez tengamos toda la configuración lista, vamos a darle click a la primera celda del colab, esta va instalar y descargar todo lo necesario, esta celda debe quedarse ejecutándose todo el tiempo que nosotros estemos usando SD.

Después de que instale todo nos dejara un "public link" al cual debemos entrar permitiéndonos entrar en la interfaz!

Ahora ya tenemos SD instalado! (La interfaz puede ser un poco diferente)
image
Este colab ya trae todas las configuraciones basicas instaladas, solo recuerda selecionar bien tu modelo y VAE que quieres utilizar image

Crear imágenes!

image

Déjame ayudarte a dar tus primeros pasos en la creación de imágenes, vamos a ir desde lo más básico hasta lo más avanzado. El modelo que estaré utilizando en este ejemplo es SakushiMix, aún si no estas usando este modelo no importa, sigue mis pasos aunque tus imágenes no sean iguales.

Es hora de empezar a crear imágenes, para eso nos vamos a dirigir a txt2img.
¿Qué tal si hacemos una imagen de Mito Ikumi del anime Shokugeki no Soma usando un leotardo en un casino y llevando comida en unos platos?

Cuando queremos hacer personaje que "Existen" la mayoría de los casos necesitaremos modelos LoRa para conseguir eso, seguramente te topaste con varios por CivitAI, para la imagen que vamos a hacer vamos a usar este LoRa.

https://civitai.com/models/72949/mito-ikumi-shokugeki-no-soma

Conectar

Ahora como descargamos este LoRa si ya estamos dentro de SD?...Muy facil!

Descargar LoRas dentro de SD

Primero vamos dirigirnos a Batchlinks Downloader

Y vamos ingresar el link de descarga directo de esta forma:

#lora
https://civitai.com/api/download/models/77671

Ejemplo image

Existen diferentes "#" dependiendo que tipo de archivo es el que vamos a descargar, por ejemplo si queremos un Lycoris Utilizamos #lycoris_real seguido por el link, despues de haber ingresado todos los links, vamos descargalos todos, podemos activar el log para ver el progreso y por utlimo vamos a darle click al botón de "Download All"

La descarga debería terminar en cuestión de segundos.
Ahora que hemos descargado el LoRa necesario regresemos a txt2img

Usar LoRas

image

Cuando descargamos LoRas de esta forma no aparecen en nuestra lista a la primera, te dejo una imagen con los pasos que debes hacer para agregar tu LoRa a tu prompt y que este tenga efecto.

Hora de Hacer el Prompt

Ya que estamos utilizando un LoRa, debemos revisar cuales son las Trigger Words o tags de activación. Utilizare estos para hacer el prompt.

image

Sigue este ejemplo conmigo, para hacer todo más rápido copia y pega este prompt y dale click al botón azul debajo de generate.
Conectar

1
2
3
4
5
6
7
8
(masterpiece:1.2),best quality, (beautiful detailed eyes)
1girl, mi1, dark skin, blonde hair, ahoge, green eyes, blue eyes, smile, open mouth, large breasts, thighs,
playboy bunny, white leotard, cleavage, bare shoulders, strapless, fake animal ears, rabbit ears, rabbit tail, choker,
standing, holding tray, (food:1.1), (steak:1.1),
casino, indoors, 
<lora:mito_ikumi_v10:0.8>
Negative prompt: EasyNegativeV2
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2651013810, Size: 512x768, Model: sakushimixFinished_sakushimixFinal, Clip skip: 2, CFG Rescale phi: 0, Lora hashes: "mito_ikumi_v10: 193ae63f44ac", Version: v1.5.1

Nota Importante

Si quieres otros resultados "aleatorios", recuerda cambiar la Generate a -1 o dando click al botón con un dado. 🎲
De Igual forma si quieres Guardar una seed, usa el botón de ♻️

Ahora si podemos darle en el botón grande Generate. Después de algunos intentos me quede con esta imagen.

Es un ejemplo dentro de todo sencillo, pero quiero que más que nada te detengas a estudiar bien el prompt que acabo de escribir, este describe toda mi imagen. he dejado un salto de línea para cada parte o detalle de mi imagen, no porque sea algo necesario, pero si una buena practica.

  • Primera Línea:
    • Algunas tags de calidad de imagen.
  • Segunda Línea
    • Describo a mi personaje (Ojos verdes, piel oscura, pelo rubio, expressión facial, pechos grandes y muslos visibles)
  • Tercera Línea
    • Describo la ropa de mi personaje (Leotardo Blanco con un considerable escote, hombros desnudos, y sin tirantes, orejas y cola de conejo...etc)
  • Cuarta Línea
    • Describe la pose y Angulo/acercamiento de la cámara (Parada, sosteniendo una bandeja con enfasis en "Carne" y "comida")
  • Quinta Línea
    • Describe la escena o fondo de la imagen ( Un casino e Interiores)
  • Sexta Línea
    • El LoRa que voy a usar, puedo usar más de uno a la vez, el número 0.8 significa 80% de fuerza aplicada a la imagen, puedes cambiarlo según que quede mejor <lora:mito_ikumi_v10:0.8>

RESULTADO

Result

El resultado no esta mal, pero le falta definición, para eso vamos a utilizar ahora la opción de Hires. fix Con la misma Seed y Prompt, Usa esto cuando quieras apuntar un resultado final, pero cuando estes todavía probando cosas en el prompt no lo utilices o hara todo tu proceso considerablemente más lento. Miralo de esta forma, las imagenes sin Hires. fix Son Previas de la imagen Final que te ahorran tiempo de generación.

Result

Esta es una configuración Basica de Hires. fix, Repito que debemos usar la misma semilla (seed) y el prompt tambien debe ser el mismo.
Lo más importante aquí es el Denoising strength, Este indica que tanto la imagen se va a parecer a la imagen Original sin Hires. fix. con 0.5 significa que la imagen va ser un 50% igual...con un 0.7, la imagen va ser un 30% igual a la original...con un 0.4 la imagen va ser un 60% igual a la original y así. Tienes que ir jugando con este valor

RESULTADO CON HIRES.FIX

Result

Ahora el resultado es mucho Mejor!

Nota Upscalers

Tenes Diferentes Upscalers a nuestra disposición, pero mi recomendación para imagenes tipo anime, son "R-ESRGAN 4x+ Anime6B", "lollypop" y "AnimeSharp"

COMPARATIVA Upscalers

Result

Si llegaste hasta aquí ya puedes considerar que terminaste la guía, pero si de verdad quieres hacer imágenes espectaculares sigue leyendo

Muchas veces cuando generamos imagenes donde nuestro personaje se ve de lejos o cuerpo completo, normalmente hay muchas fallas en los detalles de las caras...para solucionar eso utilzamos ADetailer

ADetailer

Este es un uso más basico.
Baja un poco en txt2img o incluso img2img hasta encontrar la pestaña de ADetailer.

pic

Una vez aquí, vamos a activar ADetailer, usar esta extensión va a aumentar el tiempo de generación por lo que no lo recomiendo tenerlo siempre activo. Solo cuando quieras un resultado final.

Una vez activado debemos elegir un modelo. Tenemos para la Cara o manos principalmente. Voy a elegir Face_Yolov8n.pt como modelo para la cara.
Luego en la pestaña de 2nd. voy a elegir un modelo de manos, en este caso Hand_yolo8n.pt

Y ahora vamos a generar como siempre la misma imagen que hicimos anteriormente, PERO con ADEtailer activado.

RESULTADO CON ADetailer pic

La imagen sigue siendo la misma pero la cara tiene muchisimo más detalle y resolución!...con las manos no hubo mucha suerte

ADetailer Prompt

En la ultima imagen no tuvimos mucha suerte con las manos, pero podemos intentar hacer otra cosa, usar ADetailer Prompt, cuando nosotros dejamos en blanco el prompt de ADetailer este tomara nuestro prompt principal para hacer el añadido de detalles, pero podemos nosotros poner algo si queremos algo especifico, en este caso yo agregare un pequeño prompt para manos y para ojos:
pic pic RESULTADO CON ADetailer + ADetailer Prompt

pic

Ahora sus ojos son más verdes y las manos se ve mucho mejor! Ten en cuesta que Aquí ADetailer hizo ojos verdes genericos, debido al prompt no esta tomando el LoRa en cuenta para los ojos

Aún con todas las mejoras de ADetailer aún nos quedan detalles que podrían ser mejores, para corregir Unicamente esos pequeños detalles podemos usar Inpaint.

Inpaint

Con inpaint ahora mi objetivo es corregir 2 cosas:

  • La Mano derecha de Mito
  • La diadema

En primero lugar voy a hacer un garbato sobre la parte donde debería estar la diadema de Mito con Paint bastante mediocre.
Esto puede ahorrarnos tiempo, y hasta incluso podemos cambiar colores de algo o agregar cosas de esta forma.

pic

Ahora vamos a mandar nuestra imagen a Inpaint para que toda la configuración se adapte a inpaint como el tamaño de la imagen y el prompt

pic

Ahora vamos a dibujar una mascara en los lugares que necesito cambiar.

pic

Ahora vamos a escribir el prompt de los que debe ir en la mascara que dibujamos.

pic

Y vamos a generar, el Denoising strength es muy importante aquí. tu debes calcular que tanta libertadad le das a la IA para hacer los cambios, si le das demasido puede resultar algo fuera de lugar o si es muy poco el cambio apenas es visible.

Una recomendación importante es que resuelvas un error a la vez, No todos al mismo tiempo...1 por 1, ve cambiando la imagen para dibujarle una nueva mascara hasta que tengas un resultado con la minima cantidad de errores. (esta guía es bastante basica, con el tiempo ganaras más exp)

RESULTADO FINAL

pic

Pero Aún nos falta un ultimo paso...

Re-Escalar

Vamos mandar la nueva imagen a sent to Extras
pic

En Extras vamos a elegir un escalador, yo recomiendo usar 4x-AnimeSharp o Cualquier otro, y también seleccionamos que tanto se redimensionara la imagen, yo lo dejare en 4, pero también podría dejarlo en 2, 6 o incluso más. Y bueno ahora generamos la imagen y este es el resultado:

pic

Imagen Re-Escalada FINAL

pic

Si la comparas con la original te darás cuenta que hay una increíble diferencia en los detalles! y esto solo mejoraría si yo aumento aún más la resolución

Negative Prompt y uso de Textual Inversion

¿Que son los Negative Prompt?

pic

Estos son super importantes, describen TODO LO QUE NO queremos en nuestra imagen. Cuando hay un elemento en tu imagen que esta molestandote es cuando debes hacer uso de estos, pero estos SIEMPRE de una forma u otra deben estar en nuestro prompt si no queremos sacar imagenes horribles.

¿Qué son los Textual Inversion (TI) o Embeddings?

pic

El concepto tecnico puede ser algo complicado de entender, por lo que te lo resumo en que se trata de un vector de instrucciones que puede leer la IA llamándolo por un token especial para que la IA pueda reproducir un concepto que normalmente no conocería de su existencia. Aunque en la actualidad ya no son tan utlizados, exiten los Textual Inversion Negativos que si que son bastante útiles, estos se agregan a nuestro prompt negativo, y para ponerlo en otras palabras, es como con solo poner una palabra nos ahorráramos poner 500 palabras. Como puedes ver en la ilustración de arriba son bastante poderosos.

¿Cómo usar los Textual Inversion (TI) o Embeddings?

Muy fácil, este Colab ya trae algunos Textual Inversion instalados. Para ver la lista completa podemos darle click al siguiente botón: pic Esto nos desplegara la lista completa de TI que tenemos instalados, con solo darle click a cualquier de estos webui lo agregara automáticamente a nuestro prompt, TODOS los TI que trae este Colab ya instalados nos TI negativos, por lo que debén ir siempre dentro del Negative Prompt

Para el ejemplo de antes, el prompt sería el mismo, pero ahora agregamos por ejemplo el Negative embedding "EasyNegative" que ya viene incluido.

1
2
3
4
5
6
7
(masterpiece, best quality:1.1), absurdres, deep eyes,
1girl, reisen udongein inaba, purple hair, red eyes, hair between eyes, long hair, rabbit ears, rabbit girl, blush, smile, closed mouth, thighs,
red necktie, school uniform, skirt, pleated skirt, blazer, thighhighs,
cowboy shot, sitting, on bench,
park, grass, tree, shadow, blue sky, cloud, lamppost, road, carrot, flower, rock, wooden bench, mountain, day, sunlight,
Negative prompt: lowres, ((bad anatomy)), ((bad hands)), text, missing finger, extra digits, fewer digits, blurry, ((mutated hands and fingers)), (poorly drawn face), ((mutation)), ((deformed face)), (ugly), ((bad proportions)), ((extra limbs)), extra face, (double head), (extra head), ((extra feet)), monster, logo, cropped, worst quality, low quality, normal quality, jpeg, humpbacked, long body, long neck, ((jpeg artifacts)), EasyNegative
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 8, Seed: 334790797, Size: 600x800, Model: AOM3_orangemixs, Clip skip: 2, ENSD: 31337

¿Cómo descargo más Textual Inversion (TI) o Embeddings?

pic

Es exactamente lo mismo que te explique en el Tercer paso de esta guía. Usas el custom_urls para pegar el link de descarga de cada TI, tambien puedes encontrar muchos de estos en CivitAI. Si te interesa probar los que estoy usando en los ejemplos, estos son los links a su pagina de CivitAI:

CON ESTO TERMINAMOS LO QUE ES LA PARTE DE TEXTUAL INVERSION

CON ESTO TERMINAMOS LO QUE ES EL RE-ESCALADO DE IMAGENES

LoRa

pic

Por ultimo para terminar esta guía, tienes que aprender a usar LoRas, la IA no conoce a todos los personajes, poses, estilos, ropa etc etc. que existen, pero para solucionar ese problema existe LoRa, Estos son pequeños modelos que trabajan con tu modelo/checkpoint principal para generar nuevos conceptos o estilos.

Donde podemos encontrar la gran mayoría de LoRas es otra vez CivitAI, tenemos 2 opciones para descargarlos y usarlos con el SD que estamos corriendo en el Colab.

Primera Opción y Uso

pic

De la misma forma que en el Tercer paso podemos agregar el link directo al LoRa en custom_urls y para utilizarlo podemos hacer lo mismo que para los TI en el apartado de LoRa, ahí apareceran todos los LoRas que tenemos descargados, podemos darle click a cualquiera y esto lo agregara al Prompt, normalmente en este formato: <lora:LORA:1> el valor del LoRa lo podemos cambiar, por ejemplo a <lora:LORA:0.6> si queremos que el LoRa tenga menos influencia en nuestra imagen o incluso subirlo para que su influencia sea mayor <lora:LORA:1.4> tambien es importante tener en cuenta si el LoRa tiene alguna palabra unica de activación o alguna recomendación para su uso, normalmente siempre vendra en la pagina de cada LoRa.

Segunda Opción

pic

Esta opción solo es para los locos que tienen decenas de LoRas que quieren usar, para descargarlos todos sin tener que poner el link de cada uno, podemos subirlo a nuestro Drive (el de la cuenta que estemos usando), y en custom_urls vamos a copiar su ruta por ejemplo, cree la carpeta "Lora" dentro de mi drive, y subi todos mis LoRas dentro. por lo que en custom_urls la ruta de esta carpeta sería Lora/. es importante poner el nombre de la carpeta Exactamente igual a como esta en el drive y también es importante agregar /. al final.

¿Como detener SD y como puedo volver a entrar?

Una vez terminemos de generar todas las imágenes que queríamos, podemos desconectar el colab para evitar que siga consumiendo recursos, dándole desconectar y borrar tiempo de ejecución:

pic

¿Cómo vuelto a entrar?

Repite todo lo que hiciste al principio de esta guía.

Preguntas Frecuentes

¿Dónde se guardan mis imágenes?

/content/gdrive/MyDrive/WebUI/(Opción Selecionada)

¿Es totalmente gratis?

¿Puedo generar NSFW?

Sí, si el modelo lo permite claro.

¿Por qué la IA no conoce a X o Y personaje?

La IA fue entrenada con cierta cantidad de imágenes, que muy probablemente no incluía a dicho personaje. La única forma de generar imágenes de ese personaje en concreto es por medio de un LoRa o similar, pero ese es un tema muy complejo que da para otra guia.

Como actualizar o reinstalar Stable Diffusion y WebUI?

Elimina la carpeta "SD" en tu Drive (y limpia la papelera), pero Antes recuerda mover tus modelos y VAE a otra carpeta

Luego de eso, solo empieza .

¿Cuál es el limite diario para usar Google Colab?

No hay una cantidad exacta, pero varía entre las 3 a 5 horas, aveces incluso más o menos, depende un poco el horario y el consumo.

¿Como se pelea contra las manos deformes?

No existe ninguna forma consistente de conseguir manos perfectas, por lo menos a día de hoy.

Si tienen otra duda, que no se responda aquí, pueden preguntarme a travez de mis contactos y yo las iré incluyendo en esta sección.

Guía para Principiantes - Como empezar a escribir prompts

Image description

Los prompts son las entradas en lenguaje natural que vamos a ingresarle a nuestra IA para que los intérprete en una imagen.
Vamos hacer un repaso rápido y bastante básico para hacer imágenes lo más precisas posibles.

Nivel Básico

Como se menciono, tu prompt es la entrada de texto que le das a la IA de como quieres que sea tu imagen, para hacer un prompt puede usar el lenguaje natural o puedes usar simplemente tags, por ejemplo, hagamos un retrato de miku saludando al espectador. en lenguaje natural podemos escribir algo así: a portrait of hatsune miku waving to the viewer

Hola Miku Image description

Image description

Tambien podemos usar únicamente tags, para describir la imagen, hagamos otra miku, Ahora estara sentada en un silla, mi prompt es el siguiete: masterpiece, hatsune miku, sitting, on chair, cowboy shot, large detailed eyes, blue eyes, chair, looking at viewer

Image description

¿Dónde puedo ver los tags que puedo usar?

La pagina que más se utliza para esto es https://danbooru.donmai.us

Entendiendo Stable Diffusion WebUI

Vamos a repasar algunas de las opciones que nos provee SD.

  • SAMPLING STEPS: Cuantas imágenes va a repasar la IA para hacer tu imagen. Claramente, mientras mayor el numero, mejor, pero la velocidad será bastante reducida en función del tamaño, yo no recomiendo generalmente ir más de los 50, a menos que quieras que se refinen los detalles de tu imagen, aparte en algunos Sampling Method casi no hace casi diferencia, yo por lo general siempre trabajo con 20.
  • SAMPLING METHOD: Como la IA interpreta tu imagen Cada uno da una diferente aproximación a la interpretación de tu Prompt.
  • WIDTH/HEIGHT: El tamaño de tu imagen resultado En el caso de las IA en local puede ser muy exigente para tu VRAM subirlo más del por defecto 512x512.
  • CFG SCALE: Que tanto quieres que la IA haga caso a tu prompt Si es bajo el resultado no va estar tan enfocado en lo que pediste, y a mayores la precisión será mayor.
    • Empezar de 5-15. Los resultados de enfocar demasiado o poco son muy extremos, es mejor un balance.
  • SEED: Es la ruta de procesamiento que seguirá la IA siempre y cuando los prompts y configuraciones sean las mismas, si se usa un mismo seed las imágenes resultantes serán idénticas.
    • Con -1 el resultado será random). Guarda las seeds y prompts que te gusten para replicarlas o hacerles modificaciones.
  • Batch count: Cuantas imágenes generas por cada iteración

Consejos para hacer Prompts

PROOMPT!

Muchos de estos consejos van por experiencia propia, y no es algo que tenga 100% confirmado.

  • Podemos usar Paréntesis para aumentar el énfasis de algún tag en el prompt por ejemplo (dark skin) o podemos incluso poner varias (((blue eyes))) para aumentar aún más su peso, también para hacerlo más formal podemos hacer algo así (dark skin:1.1), de hecho WebUI ya nos da el formato, selecciona tu tag, y usa la combinación CTRL+ALT+FLECHA ARRIBA/FLECHA ABAJO
    PROOMPT!
    # Referencia de pesos en el prompt
    (n) = (n:1.1)
    ((n)) = (n:1.21)
    (((n))) = (n:1.331)
    ((((n)))) = (n:1.4641) 
    (((((n)))) = (n:1.61051)
    ((((((n)))))) = (n:1.771561)
    
    [n] = (n:0.9090909090909091)
    [[n]] = (n:0.8264462809917355)
    [[[n]]] = (n:0.7513148009015778)
    [[[[n]]]] = (n:0.6830134553650707)
    [[[[[n]]]]] = (n:0.6209213230591552) 
    [[[[[[n]]]]]] = (n:0.5644739300537775)
    
  • De la misma forma que con los paréntesis podemos usar llaves para reducir el peso de un tag [dark skin], por lo que la IA los tomara menos en cuenta para generar tu imagen.
  • Si no utilizamos llaves o paréntesis, aparentemente, el paso de los tags va por su orden, los primeros siendo los de más peso.
  • Los paréntesis son muy útiles a la hora que queremos una imagen de cierto personaje ya existente. Por ejemplo Pyra de Xenoblade 2. masterpiece, best quality, 1girl, pyra_\(xenoblade\), red eyes, red hair, short hair. Es muy importante usar las "\" para indicar que se trata de una serie o franquisia. También es bueno poner ciertas caracteristicas del personaje para que sea más facil que salga.
    PROOMPT!

Desactualizado (VIDEO TUTORIAL) - SpeedRun Instalar Stable Diffusion WebUI en menos de 5 minutos

https://files.catbox.moe/kqyyyf.mp4

Contactos

https://www.pixiv.net/en/users/22830766 https://twitter.com/Vysetf

PROOMPT!

Edit
Pub: 19 Oct 2022 06:26 UTC
Edit: 09 Sep 2023 05:40 UTC
Views: 6229