iGPUで任意のSDXLモデルで画質を犠牲にして高速で画像作成する
今回は速度重視のセッティングで生成してみます
◆できあがった環境をいろいろな生成器で生成した時の速度の差
CPUで作成 (AMD Ryzen5 8500G)
2分43秒
内蔵GPUで作成 (AMD Radeon 740M)
1分1秒
GPUで作成 (NVIDIA GeForce RTX 3060)
5秒
モデルのロードなどが済んでいる2回目以降の作成。メモリ32GB。画像サイズ832 x 1216。ステップ数4。1枚作成
外すのがメンドウなのでグラボを刺しっぱなしで検証したので、グラボが完全に無い時と比べて多少は能力に差があると思われます
・結論
CPUで作成するのはきつい感じ
iGPUで作成するのは、日常的な使用に耐えられなくもないレベルになったと思います
◆高速化及び省メモリ化のためにやったこと
Radeon ZLUDA
NvidiaのCUDA用のコードをAMDのROCmに変換して実行することでAMDのGPUで処理できるようにします
TCD
LCMのように品質を犠牲にして低ステップで画像を生成できる技術
ComfyUIをFP8モードで起動
使用メモリが16GBを超えないぐらいまで抑えられました
・その他、早くなるらしい技術
WaveSpeed の Dynamic Caching
WaveSpeed の torch.compile
Triton+SageAttention 2
TAESDXL (Tiny AutoEncoder)
TaylorSeer
Flash Attention 2
ComfyUI-MultiGPU (マルチGPUの時、サブGPUのVRAMも使う)
Teacache
Pytorch2.7.0+cu128 (最新化)
ToMe (Token Merging)
・各種ファイルの場所のメモ
GitHub - JettHu/ComfyUI-TCD: ComfyUI TCD implementation
https://github.com/JettHu/ComfyUI-TCD
Release v0.6.2.4 · likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU · GitHub
https://github.com/likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU/releases/tag/v0.6.2.4
呪文
呪文を見るにはログイン・会員登録が必須です。