AI画像、砂嵐の理由
🌱 1. 画像生成AIの基本構造
現在主流のAI画像生成(Stable Diffusion、DALL·E、Midjourneyなど)は、「拡散モデル(Diffusion Model)」と呼ばれる仕組みを使っています。
🌀 2. 「ノイズから引き算していく」仕組み
ざっくり言えば、AIは最初に“完全なノイズ画像”を作り、そこから少しずつノイズを取り除きながら意味ある画像を「浮かび上がらせていく」という流れです。つまり、「引き算」型の生成です。
🧩 3. もう少し細かく見ると…
1. ノイズ画像の生成
完全にランダムな砂嵐のような画像を用意します。これは「真っ白なキャンバス」ではなく、「全てが混ざった状態のカオス」です。
2. テキスト(プロンプト)を理解する
AIはまず、入力されたテキスト(例:「猫が宇宙服を着ている」)を文章エンコーダで「意味のベクトル」に変換します。
→ つまり「どんな要素を含めたいか」を数値として理解します。
3. 段階的なノイズ除去
そこからAIは、数十〜数百ステップにわたって「ノイズを少しずつ取り除く」工程を繰り返します。
各ステップで「このピクセルのこの部分は“猫の毛”らしい」「ここは“宇宙空間”っぽい」…という推測を繰り返していきます。
→ 結果として、ノイズの中から意味ある形が浮かび上がる。
⚙️ 4. 「いびつな画像」になる理由
AIが精査しきれない、あるいは曖昧な指示を受けると、一部のピクセルが不整合なまま残ります。
すると「猫」と「宇宙服」の関係性が曖昧になり、奇妙に融合してしまうといった形で“いびつな画像”が出てきます。
つまりAIが「どこをどう引き算するか」を誤ると、ノイズが正しく除去されず「違和感」として残ります。
💡 5. 生成AIを「足し算」と「引き算」で見ると…
GAN(旧世代):無から「足して」いく方式(ゼロから生成)
Diffusion(現代主流):ノイズから「引いて」いく方式(ノイズ除去)
「確率的に最も正しそうな引き算を繰り返す」という数学的最適化プロセス。
✨ 6. 例えるなら…
砂嵐のスクリーンを何度も拭き取りながら、
AIが「この模様は猫っぽい」「こっちは宇宙だ」と判断して少しずつ映像が見えてくる感じです。
以上になります。AIによる回答なので確実性のあるものかは断言出来ませんが、私個人は概ねこのような理由だと思います。
呪文
入力なし