ログインする ユーザー登録する
投稿企画「#Seedream4.5」開催中!特設ページへ ▶

【動画】女子高生を歌わせるよ

使用したAI Stable Diffusion XL
RVCの音声トレーニングで短い音声データでも歌わせられるのかやってみました
動画は以下からご覧いただけます
https://youtu.be/ZiDSLC7R6Ko?si=26i-IzoCy_WiPWrn

RVCの音声トレーニングは一般的に10以上のファイル数で計10分から30分は必要とか言われてます
汎用性の高いモデルを作ろうとすれば喜怒哀楽、強弱、高低、囁き声、裏声、歌声と幅広い音声データが必要になりますよね
でも「そんなにデータねーよ」というケースも多々あるはず
そこで数分(この動画の場合は3分台。敢えて分割しない1ファイルのみ)の学習データで歌えるのか?それも静かな口調で平坦なしゃべりのみ
イラスト用のLoRAが一枚や数枚の学習元絵でそれなりには作れるので
音声でも短い学習音声でやれないこともないはず。ってことで学習時の総エポック数高め、変換音声生成時も少々特殊な設定でやってみました

結論:精度は別として「やろうと思えばそれなりにやれないこともない」です

ところで最近はDeepFakeを少々検証していました
こちらの最下あたりにある「AI」カテゴリーや「Shorts」カテゴリーにいくつかアップしています
https://www.youtube.com/@lucky2283
今やってるのはモノラル音声の疑似ステレオ音声化です
自分流のやり方ですが、AIと音声編集作業の合わせ技です
よければこちらも聞いてみてください
https://youtu.be/Xwk6srP9z8g?si=N4Y4U-U5q7AI6E4Z

ところで口パクに使ってSadTalkerですがA1111 v1.8は使えないようですよ
使いたい人は以前のバージョンに戻せる人は戻したら動きます
ちなみに自分はSD1.5環境とSDXL環境とforgeをそれぞれ別に仮想環境に構築してます

呪文

入力なし

Finger Fiveさんの他の作品

Finger Fiveさんの他の作品

すべてを見る

おすすめ

メンバーシップ

251123P【12枚】あの子がブルマに着替えたら
12

251123P【12枚】あの子がブルマに着替えたら

500コイン/月以上支援すると見ることができます

(40枚)まどか先生@2024/10/04_田舎駅①
40

(40枚)まどか先生@2024/10/04_田舎駅①

100コイン/月以上支援すると見ることができます

(40枚)ゆきにゃん@2024/08/19_レストラン
40

(40枚)ゆきにゃん@2024/08/19_レストラン

100コイン/月以上支援すると見ることができます

(40枚)こはる@2024/08/15_ビーチまで
40

(40枚)こはる@2024/08/15_ビーチまで

100コイン/月以上支援すると見ることができます

憩いの一時
18

憩いの一時

300コイン/月以上支援すると見ることができます

謎の海産物フィギュアコレクション21
40

謎の海産物フィギュアコレクション21

全体公開

今まで投稿した中からGeminiで生成したフィギュアのみを集めました。 40枚たまったら順次アップしていきます。

(40枚)結衣@2024/09/06_黒ドレス②
40

(40枚)結衣@2024/09/06_黒ドレス②

100コイン/月以上支援すると見ることができます

20251122【10枚】ジーパン少女
10

20251122【10枚】ジーパン少女

300コイン/月以上支援すると見ることができます

Stable Diffusion XLのフォト

すべてを見る

トレンド

すべてを見る

ユーザー主催投稿企画

すべてを見る

新着フォト

すべてを見る