LoRa SNくん
SNくんは一般的なデザインなのでLoraが無くてもプロンプトで表現できそうな気もします…が!そうでもなかった
英語圏内の表現でパーカーとかフードとかバンダナとか頭巾とかゴッチャになってるし
そもそもそういったデザインの服データがモデルに入ってないっぽい(微妙に違う、似てない、出てこない)
なのでいくつかパラメーターを変えながら最適な値を探っていきます
学習元の画像データなのですが、画像枚数と種類が多い方がいいっぽいので20枚用意
大きさ、解像度を揃えたほうがいいそうなので全部768x768サイズ、300解像度にする
背景は消さなくてもいいそうだけど、やはり影響を受けるので消していく
pngの透明背景ならキャラだけ読み取ってくれそうだけど、どうも透明部分が滲むっぽいので白背景にする
汗とかノイズになりそうな記号も消していく
絵柄や等身は揃えた方がいいのでDDNN先輩さんの画像を主にパク…使わせてもらう
(…解説動画とかで画像を借りるとか言ってるけど、どうやって返すんだろうか?)
下準備が出来たところでいくつか試しに作ってみたんですが…あんまり良くないですねぇ
画像を多くしようと用意したのですが、主に上半身の画像が多いせいか上半身の画像ばかり出てくる
全身画像を写そうとしても短足だったり俯瞰の構図になってしまう
学習画像の解像度や大きさを揃えたんで、接写で大味な感じになってしまう
画像が多くても似たようなのばかりはいけませんね…
背景を消したのはいいけど、自動選択ツールを使ったせいか、線が途切れ途切れなのも学習されちゃってるみたい
輪郭は全部消しゴムやペンツールで整えなきゃいけないのか…(面倒)
繰り返し回数は正則化画像が無ければ1回でいいそうだけど、1回だと学習が弱いので10回
エポック数は10、15と試したけど15だと過学習気味で線がブレるので10回
バッチサイズは時間かかるから2
画像枚数20 x 繰り返し回数10 x エポック数10 = 2,000のステップ数
全体のステップ数は3000~4000がいい?5000以上じゃないとダメ?
いろいろと諸説がありますが、ここはもう気にしなくていいと思う(断念)
Max resolutionは768,768、seed値は1でいいや bf16!bf16!
ほかのパラメーターはよく分からんので初期値
Stable DiffusionとKohya_ss GUIとdataset-tag-editor-standalone
これらを同時起動してもローカルのアクセスURLは自動で変更して割り振るから同時作業しながら出来る
こうして差分を作りながら各バージョンを試していったんですが
やはりモデル内蔵のデータに引っ張られたり、色が飛び地したりと調整が難しいすね…
まぁせっかく作ったんで、これを使って画像を生成してみよう!って思ったんですが…
デザインデータが引っ張られるなら、一回ひな形の画像を作ってから
それをLora適用のinPaintで修正していけばなんとか類似性のある人物像になるやろー
↓
Loraの柔軟性がないせいか、微妙な人物像になってしまった…
あとInpaint Anything、これ使えるモデルが内蔵モデルだけなんすね…まだ検証してないけど
なんかもう、打ちのめされてしまったんで、ひな形の画像をプロンプトや雑コラで整えて出荷しましたとさ
めでたし、めでたsまだまだ要研究ですね…(瀕死)
…あっ!学習画像の背景はInpaint Anythingでマスク化して消せばいいのか!(痴呆)(後悔)
DDNN先輩 さんのイラスト一覧 - ニコニコ静画 (イラスト)
https://seiga.nicovideo.jp/user/illust/126924418
呪文
呪文を見るにはログイン・会員登録が必須です。
イラストの呪文(プロンプト)
イラストの呪文(ネガティブプロンプト)
- Steps 20
- Scale 7
- Seed 4080739668
- Sampler DPM++ 2M Karras
- Strength
- Noise
- Steps 20
- Scale 7
- Seed 4080739668
- Sampler DPM++ 2M Karras