AI画像生成

Stable Diffusion web UI AUTOMATIC1111版のローカル環境構築手順
1. FAQ
Stable Diffusion TIPS
リンク集

サービス	公式サイト	公式SNS	公式Discord	Twitterハッシュタグ
Stable Diffusion	https://stability.ai	https://twitter.com/stabilityai	https://discord.gg/stablediffusion	#stablediffusion
DALL·E 2	https://openai.com/dall-e-2	https://www.instagram.com/openaidalle		#dalle2
Midjourney	https://www.midjourney.com	https://twitter.com/midjourney	https://discord.gg/midjourney	#midjourney
Craiyon(旧DALL-E mini)	https://www.craiyon.com	https://twitter.com/craiyonai		#craiyon

Emad Mostaque(Stability AI)による3つの主要サービスについて

Stable Diffusion、DALL·E 2、MidJourneyは全て異なるものだ
この分野は、昨年(2021年1月)にOpenAIがCLIPを公開したことで革命が起こり、これにより画像生成のガイドが可能になった
DALL·E 2
- モデルかつサービス
- インペインティングは最高の機能だが、現状ランダムなのでアイデア出しや企業的な用途に最も適している
- 来年にはコストが10分の1以下になり、APIも公開されると思われる
- トレーニングデータは著作権のあるイメージなので、オープンソースにはならないと思う
Midjourney
- ベンチャーキャピタルの資金提供を受けたベンチャー、ではなく研究所
- 非常に独特な絵画のようなスタイルを持っている
- 現在は競合サービスと同じオープンソースのモデルを利用しているが、出力の一貫性の保持に膨大な労力が費やされている
- 出力のランダム性が強いが、ある程度コントロールは可能
- オープンソースにされている部分とそうでない部分がある
Stable Diffusion
- アートからプロダクトまで、あらゆるタイプのイメージに対応する一般的な基礎モデル
- 公式のプロシューマー向けサービス「DreamStudio」
- ベータ版のテスト出力はプリプロもポスプロも行っていないが、これらを使うことで格段に仕上がりが良くなり、きめ細かな調整が可能になる
- オープンソースのモデルなので、誰でも使うことができる
- コードが公開されているので、誰もがこのモデルを改良し、構築することができる

英語スキルはあるといいですが、別に今時なくても何とかなります

Stable Diffusion web UI AUTOMATIC1111版のローカル環境構築手順

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Dependencies で指定されているものをインストールおよびDLする
インストールしたいディレクトリに移動し git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui を実行する
DLしたモデルファイルをmodels/stable-diffusionフォルダに入れる
webui-user.bat を非管理者として実行する
Running on local URL: http://127.0.0.1:7860と出たらそのURLをブラウザで開く
アップデートのため、定期的にインストールフォルダでgit pullを実行する。

以下はオプション
- GFPGAN(顔補正)
  https://github.com/TencentARC/GFPGAN/releases/download/v1.4.0/GFPGANv1.4.pth からDLしたGFPGANv1.4.pthをwebui.pyと同じフォルダに置く
- 省メモリ化オプション(VRAM 4GBくらいの人向け)
  webui-user.batファイルを別名でコピーして set COMMANDLINE_ARGS= の所に追記して set COMMANDLINE_ARGS=--medvram にしてそのファイルから起動する
  --lowvram もある。詳しくは以下
  https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Troubleshooting#low-vram-video-cards
- 日本語化
  Settings->Localizationでja_JPを選んで再起動。

FAQ

Q. Batch countの上限を増やすには?
A. webui.batと同じディレクトリにある「ui-config.json」をテキストエディタで開く。9行目の「"txt2img/Batch count/maximum": 16,」の数値を増やして保存しStable Diffusionを再起動する

Stable Diffusion TIPS

セキュリティ

モデル（ckpt)や、Texutual Inversionのbinファイルには、任意のプログラムコードを仕込むことが簡単にできます(詳細はpickleの脆弱性などで検索）。信頼できるソースからのモデルや評判のあるモデル以外の怪しいファイルは読み込まないように注意が必要です。（もしくはDockerなどセキュリティ的に閉じた環境での利用など対策を取る必要があります）

性能など

高解像度にしたい → AUTOMATIC1111版の「Highres Fix」使用である程度解消 ~~学習データが512x512なので、1024x512など片方は512以下にしないとおかしくなる。RealESRGAN等で高解像度化したほうがよい。~~ StableDiffusion V2(時期不明)では1024x1024学習になる予定(2022/9/20現在）
画像生成時間は、解像度、step数、サンプラで違う。他のパラメータは多分あまり影響はない
Windows/WSL2/Docker上でのStableDiffusionは、素のWindowsでのStableDiffusionと同等の性能。
サンプラの差は大きい。k_euler_aとk_heunでは2倍差
早い ← k_euler_, k_euler, DDIM, PLMS > l_lms > k_dpm_2_a, k_dpm2, k_heun → 遅い

SAMPLER COMPARISON

ハード

K80(24GB)めっちゃ安いんだけどあり？ → 古いからStableDiffusionが使ってるPytorch動かない
複数GPUにすれば高解像度にできる？ → Geforceでは無理。複数GPU並行実行すればその分高速にはできる
ローカル動作性能(出典: https://rentry.org/voldy)
- 9xx(Maxwell)　動くが遅い
- 10xx(Pascal)　動くがそこそこに遅い
- 16xx(Turing without Tensor)　グリーンスクリーンバグ
- 20xx(Turing)　動く
- 30xx(Ampere)　動くし速い
- 40xx(Ada Lovelace)　最適化が進んでおらず遅い?(Reddit等での報告)

RENDER TIME BY GPU (50 steps)

リンク集

Stable Diffusionの派生

ローカル環境
CompVis/stable-diffusion - 公式(フィルタ有)
AUTOMATIC1111/stable-diffusion-webui - AUTOMATIC1111版(一番人気、他の改善をほとんど取り込んでいる)
sd-webui/stable-diffusion-webui - hlky版(更新が停滞)
basujindal/stable-diffusion - basujindal版(初期の最適化実装。もはや時代遅れ)
invoke-ai/InvokeAI - lstein版(M1対応)
プラグイン
stable-diffusion-krita-plugin - Kritaプラグイン
 Stable Diffusion for Krita - Kritaプラグイン
 internationalTD defuser - Krita/Photoshopプラグイン
 IvyPhotoshopDiffusion - Photoshopプラグイン
ローカルデスクトップアプリケーション
artmamedov/artroom-stable-diffusion - Artroom版(GTX16XXでも動く)
NMKD Stable Diffusion GUI - NMKD版
 Stable Diffusion GRisk GUI - GRisk版(img2imgなし)
Google Colab
Stable Diffusion with 🧨 diffusers - 公式
 camenduru/stable-diffusion-webui-colab - AUTOMATIC1111版
 ddPn08/automatic1111-colab - AUTOMATIC1111版
 fast_stable_diffusion_AUTOMATIC1111.ipynb - AUTOMATIC1111版
 StableDiffusionUI-Voldemort V1.2.ipynb - AUTOMATIC1111版
 StableDiffusionUI-Voldemort.ipynb - AUTOMATIC1111版 (非推奨)
Neo Hidamari Diffusion.ipynb - hlky版
 Stable Diffusion WebUi - hlky版
ウェブサービス
DreamStudio - 公式サービス
Dezgo - 無料のtxt2img
Inpainting with Stable Diffusion & Replicate - 無料のインペインティング
Spaces - Hugging Face
- txt2img
  Stable Diffusion
  ERNIE-ViLG
  Waifu Diffusion Demo
  Stable Diffusion v1-5
  Finetuned Diffusion
  Composable Diffusion
  Text to Pokémon
  Chinese Stable Diffusion
  Japanese Stable Diffusion
  Stable Diffusion CPU
- img2img
  Diffuse The Rest
  Stable Diffusion Img2img CPU
  Stable Diffusion Image Variations
- インペインティング
  Stable Diffusion Inpainting
  Runway Inpainting
  InPainting Stable Diffusion CPU
- アウトペインティング
  Stablediffusion Infinity
  Stable Diffusion Mat Outpainting Primer
- txt2txt
  MagicPrompt Stable Diffusion
- img2txt
  BLIP
  CLIP Interrogator
  DeepDanbooru
ファインチューンモデル
hakurei/waifu-diffusion-v1-3 - Danbooruモデル
 hakurei/waifu-diffusion - Danbooruモデル
 naclbit/trinart_stable_diffusion_v2 - とりんさまAIモデル
 naclbit/trinart_stable_diffusion - とりんさまAIモデル(旧)
Stable Diffusion Models - モデル集
Textual Inversion ファインチューニング
sd-concepts-library - Stable Diffusionコンセプトライブラリ
 list of Textual Inversion embeddings for SD - Textual Inversionリスト

Stable Diffusionのガイドいろいろ

SD&MJプロンプト関連

その他

過去スレ

ここは既存のAI画像生成サービスの具体的な技術や動向について語り合うスレです
AI画像生成の未来や、イラストレーターの権利といった一般的な話題は以下のスレッドでお願いします
【Midjourney】AI関連総合10【StableDiffusion】
AIイラスト　愚痴、アンチ、賛美スレ part4

AI画像生成

Stable Diffusion web UI AUTOMATIC1111版のローカル環境構築手順

FAQ

Stable Diffusion TIPS

セキュリティ

性能など

ハード

リンク集

Stable Diffusionの派生

Stable Diffusionのガイドいろいろ

SD&MJプロンプト関連

その他

Warning