技術的な話(pixivで入りきらなかった日本語版含む)
「良い絵」というものの感じ方は人それぞれですが、「AIイラストの品質」というものはいくつかの指標から測り知ることができます。
その代表としては、「人体パーツの正確性」です。極端な例を言うと、おそらくAIイラストを触ったことのある人はご存知でしょうが、下手なプロンプトによって出力したキャラクターは腕や脚が3本あったりするような人体パーツの破綻が見られます。
もっとありがちな破綻を挙げると、指が6本指になるような例です。SDXLにおいても尚、この指の本数の破綻は起こりがちです。
だからこそ、手の部分がもっとも「AIイラストの品質」を計るのに有用です。この投稿の1~4枚目は、とくにポーズなどを指定しないで出力した絵です。5~6枚目は「v sign」を、7~8枚目は「middle finger」を指定しています。
おそらくもっとも難しいmiddle fingerには若干の破綻が見られますが、おおよそ綺麗な形に出力できているのではないでしょうか。
一般的にv signを出力しようとすると、完璧な手の形は成功率2割程度でしかないと思います(経験則)。しかしStable Diffusionの拡張機能と、プロンプトの調整によって、その成功率は8割くらいまで上げられると思います。
モデルの内部に学習されている特徴を、プロンプトの指示どおりに描画させることができる……これがもっとも重要です。
私がAI絵を触りはじめたのは1年前ですが、この時はNAIが過去のものとなり、SD1.5ローカル環境が隆盛していました。そしてNAIv3が世に出たあと、ローカル環境ではponyモデルなどが出てきてそちらが天下を握りつつあります。
私の感覚ですが、最適化したSD1.5環境では旧NAIの2倍くらいに品質の高いイラストを生成できていたので、おそらく最適化したローカルSDXLモデルはNAIv3の2倍以上の実力になると思います。私がSDXLを触りはじめて1か月程度ですが、それだけの期間でどれほどイラストの品質が向上したかは、おそらく私の投稿を見ていただければ分かるでしょう。
まだまだ品質を向上させる余地はあると思いますので、見守っていただけると幸いです。
The perception of "good art" varies from person to person, but the "quality of AI illustrations" can be measured by several indicators. One such indicator is the "accuracy of human body parts." As an extreme example, those who have likely interacted with AI illustrations know that characters generated by poor prompts may have flaws such as having three arms or legs. A more common flaw is when fingers become six instead of five. Even in SDXL, flaws in the number of fingers are still common.
Therefore, the hand part is the most useful for measuring the "quality of AI illustrations." The first to fourth images in this post are pictures generated without specifying a particular pose. The fifth and sixth images specify the "v sign," and the seventh and eighth images specify the "middle finger." While there may be some flaws in generating the middle finger, overall, the shapes are outputted quite neatly.
Generally, I think the success rate of generating the v sign is only about 20% (based on experience). However, with the extension of Stable Diffusion and adjustments to prompts, I believe that success rate can be increased to around 80%.
Being able to draw features learned within the model according to the instructions of the prompt... this is the most important aspect.
I started using AI art about a year ago when NAI became a thing of the past, and the SD1.5 local environment was thriving. After NAIv3 came out, models like the pony model began to dominate in the local environment. In my experience, in the optimized SD1.5 environment, I was able to generate illustrations of about twice the quality of the old NAI, so I believe that an optimized local SDXL model would have more than twice the capability of NAIv3. I've only been using SDXL for about a month, but you can probably see how much the quality of the illustrations has improved in that short period by looking at my posts.
I believe there is still room for improvement in quality, so I would appreciate it if you could continue to watch over me.
"好画" 的感觉因人而异,但是可以通过几个指标来衡量 "AI 插图的质量"。 其中一个指标是 "人体部位的准确性"。 举一个极端的例子,那些可能与 AI 插图互动过的人知道,由于低质量的提示,生成的角色可能会有三条手臂或腿之类的缺陷。 更常见的缺陷是手指变成六根而不是五根。 即使在 SDXL 中,手指数目的缺陷仍然很常见。
因此,手部分是衡量 "AI 插图的质量" 最有用的标志。 这篇文章中的第一到第四幅图片是没有指定特定姿势的图片。 第五和第六张图片指定了 "V 字手势",第七和第八张图片指定了 "中指"。 尽管生成中指可能会有一些缺陷,但总的来说,形状还是相当整齐的。
一般来说,我认为生成 V 字手势的成功率只有约 20%(基于经验)。 但是,通过 Stable Diffusion 的扩展和提示的调整,我相信成功率可以提高到约 80%。
能够根据提示的指令绘制模型内部学到的特征... 这是最重要的方面。
我大约一年前开始使用 AI 美术,那时 NAI 已成为过去,而 SD1.5 本地环境正处于繁荣时期。 NAIv3 推出后,像小马模型这样的模型开始在本地环境中占主导地位。 据我所知,在优化的 SD1.5 环境中,我能够生成大约是旧 NAI 的两倍质量的插图,因此我相信优化的本地 SDXL 模型的能力将是 NAIv3 的两倍以上。 我只使用 SDXL 大约一个月,但通过查看我的帖子,您可能会发现在这么短的时间内插图的质量有多大的提高。
我相信还有提高质量的空间,希望您能继续关注。
呪文
入力なし