LoRA-Regularization Image 正則化画像適用による影響周りの個人的検証

LoRA-Regularization Image 正則化画像適用による影響周りの個人的検証
1. なにこれ
2. 正則化画像について

なにこれ

LoRA作成時の正則化画像について、正則化画像は[いる/いらない]、正則化画像は学習に影響を[与える/与えない]、などなど諸説あるが、画像ベースでの比較はそんなにないので自前でもやってみようというもの。やったついでに結果をここで共有している。

正則化画像について

Kohya-ss氏の解説をまずは見るのが良いと思う。
Kohya-ss氏のsd-script学習関係の説明

検証LoRA1 正則化画像なし／学習元画風正則化画像

とある作品のキャラクターについて、片方は正則化画像なし、片方は同一画風の正則化画像293枚を入れて学習させた。
学習は8batch、512x512。セリア(kohya locon)で64/32/32/16で5epoch分用意した。
noregとあるのが正則化画像なしのLoRAとなる。
なお、プロンプトは以下。

【LoRAのトリガーワード】 ,China dress, looking at viewer, tv ver, smiling, outdoor, forest, solo, 1girl, woods, flowers, field, river, purple hair, blue eyes,
Negative prompt: (worst quality:1.4), (low quality:1.4), text, error, cropped, blurry, signature, watermark, username
Steps: 24, Sampler: DPM++ SDE Karras, CFG scale: 12, Seed: 3888997607, Size: 512x768, Model hash: 6e350084a6, Model: 7th_anime_3.1_A, Clip skip: 2

rimul-1
寸評：いずれも特徴は捉えているし衣装指定含めプロンプトへの抵抗もない。正則化画像入りの方が画風影響は出ていそう。
rimul-2
寸評：正則化画像入りの方がうっすら眠い感じの絵になっている。体への張り付き具合はありの方が自然ではある。

こちらは屋内、学生服を着せてみての比較。

tv ver, 【LoRAのトリガーワード】,school uniform, white shirt, blue skirt, black thighhighs, solo, 1girl, looking at viewer,smiling, indoor, school, classroom, chairs, desks, blackboard, purple hair, blue eyes,
Negative prompt: (worst quality:1.4), (low quality:1.4), text, error, cropped, blurry, signature, watermark, username
Steps: 24, Sampler: DPM++ SDE Karras, CFG scale: 12, Seed: 112233, Size: 768x512, Model hash: d124fc18f0, Model: AOM3, Clip skip: 2

rimul-3
寸評：こちらも正則化画像ありはやや眠い。黒サイハイソックスへの指示は比較的通る。
rimul-4
寸評：正則化画像なしはサイハイソックスへの黒指定がやや弱いが構図等含め柔軟。

検証LoRA2 正則化画像なし／学習元モデル正則化画像／学習元画風正則化画像

検証1の学習結果は割と素性が良いものだったので、もう少し癖のあることがわかっている学習データでの結果を用意した。
この学習データは衣装別学習を試みているが、中途半端な打率になっているもの。
これで、学習させた追加衣装と学習外衣装を着せて比較する。
学習は8batch、512x512。セリア(kohya locon)で64/32/32/16で5epoch分用意した。

検証2−1 学習外衣装

【LoRAのトリガーワード】,school uniform, white shirt, blue skirt, black thighhighs, solo, 1girl, looking at viewer,smiling, indoor, school, classroom, chairs, desks, blackboard,
Negative prompt: (worst quality:1.4), (low quality:1.4), text, error, cropped, blurry, signature, watermark, username
Steps: 24, Sampler: DPM++ SDE Karras, CFG scale: 12, Seed: 112233, Size: 512x768, Model hash: def5db1c61, Model: blue_pencil-v5, Clip skip: 2

正則化画像なし

Imgur
寸評：顔の精度と衣装影響（汚染）具合が比例している。Hires込み現実的なのは000003か。
Imgur
寸評：こちらは右にいくにつれて順当に精度が上がっているように見える。

正則化画像（学習元モデルで生成した1girl100枚）

Imgur
寸評：１エポック目時点で衣装汚染されている。後半は破綻、プロンプト無視。
Imgur
寸評：縦と同上。

正則化画像（学習元データと同じ画風の画像293枚）

Imgur
寸評：やや眠い。000003あたりから衣装汚染が見られる。この中なら1〜3エポック目がよいか？
Imgur
寸評：上と同上だがsolo、1girlが効きづらい傾向が見られる。

検証2−2 学習データ内衣装

【LoRAのトリガーワード】,drs, dress, solo, 1girl, looking at viewer,smiling, outdoor, desert, sun, sky, cloud, sands
Negative prompt: (worst quality:1.4), (low quality:1.4), text, error, cropped, blurry, signature, watermark, username
Steps: 24, Sampler: DPM++ SDE Karras, CFG scale: 12, Seed: 112233, Size: 512x768, Model hash: def5db1c61, Model: blue_pencil-v5, Clip skip: 2

正則化画像なし

Imgur
寸評：衣装精度が微妙。プロンプトへの反応はなかなか素直。
Imgur
寸評：４エポック目112233の結果が比較的正しい。全体的に衣装精度は良くない。

正則化画像（学習元モデルで生成した1girl100枚）

Imgur
寸評：別衣装汚染が見られる。3、4エポック目はプロンプトの効きがイマイチ？
Imgur
寸評：solo、1girlの効きが悪くなっている。

正則化画像（学習元データと同じ画風の画像293枚）

Imgur
寸評：4、５エポック目は背景のプロンプトが効いてない。衣装汚染されている。
Imgur
寸評：solo、1girlの効きが悪くなっている。あとはコメントしないが。。。。。。

検証LoRA3　正則化画像なし／正則化画像453枚（1girl）／正則化画像453枚（Taggerによるタグ付）

【LoRAのトリガーワード】, school uniform, white shirt, blue skirt, red bowtie, black stockings, indoors, school, classroom, chairs, desks, blackboard, solo, 1girl, pink hair, looking at viewer
<lora:【LoRA】:1>
Negative prompt: (worst quality:1.4), (low quality:1.4), text, error, cropped, blurry, signature, watermark, username
Steps: 24, Sampler: DPM++ SDE Karras, CFG scale: 12, Seed: 112233, Size: 768x512, Model hash: 80b64299af, Model:models_nostalgiaClear_nostalgiaClear, Clip skip: 2

せっかくなのでMulti Resolution Noiseも指定してみている。iterations=10、discount=0.8。

正則化画像なし

NoReg
寸評：Multi Resolution Noiseを適用すると暗闇描写が良くなる一方で、色彩表現にも影響が出るようだ。
特徴自体は６エポック目程度で捉えている。

正則化画像453枚（1girl）

reg
寸評：まだキャラ特徴を覚えるところまで行っていない。ステップ数的には同等なので正則化画像による揺り戻しということだろう。

正則化画像453枚（Taggerによるタグ付）

Tagged
寸評：同じくキャラ特徴の学習不足。加えて３エポック目から黒ソックスの指定が通りにくくなっているのが気になる。

正則化画像453枚（Taggerによるタグ付　追加Epoch）

Tagged-add
寸評：追加で１セット回した。キャラ学習度合いは良くなっているが、プロンプトの効き具合や色彩表現に影響が出ている。後者はMulti ResolutionNoiseの影響だろう。

おまけ１　Multi Resolution Noise 比較

以下の条件のみを変えてその他全て同条件で作成したLoRAを比較した。
なし
iterations=8、discount=0.3
iterations=8、discount=0.8
iterations=10、discount=0.8

yoko
tate
寸評：暗所表現は確かに適用したものの方が表現できているように見える。目の色が少しおかしい出方をしているものあり。また適用した側はスカート部分の表現が怪しいものもあり、細かい箇所を表現できていそうなことの良し悪しかもしれない。

おまけ２　モノクロ学習

実験的な試み。通常データセットで用意した学習素材の9割ほどをグレースケール変換して学習させる。
一定程度カラーの学習素材を混ぜておけば学習データとしては正しい色の適合系は抑えてくれる。
指定色以外への色変更をしたい時など（例：2Pカラー作りたい）に適用しやすくなる、細部表現強くなる、などを期待した。

Imgur

寸評：こっちは案外使えそうな気もしている。なお衣装等ある場合はちゃんと衣装の色は把握できる程度カラー素材を混ぜないと変な色で補完してくる。

まとめ（個人的評価）

学習では正則化画像による影響を受ける。
そのため、眠い画像を使う、ロゴ入りのものを加工しないで使う、などすると学習結果に反映されてしまう。注意。
また正則化画像のバリエーションが少ないと本来意図する意匠が出にくくなるケースも観測している。
正則化画像の数が多ければ多いほど、合計ステップ数に影響する。正則化画像なしの場合に比べてステップ数を要する。
学習元画像数が少ない場合に正則化画像を有効活用できた体感があったのだが、今回のような一定以上元素材枚数があるケースでは正直特に利点は感じなかった。