GPT-SoVITS v2
最終更新 2024/10/22
質問1
GPT-SoVITSとは何ですか?
答え1
簡単に説明します。
・MIT license
・日本語に対応したWebUI があって使いやすい
・5秒程度の音声を入力するだけで音声合成が可能
・1分以上の音声を学習させると高品質な音声合成が可能
全て説明すると長くなってしまうので、詳細は公式の説明をご覧ください。
https://github.com/RVC-Boss/GPT-SoVITS
質問2
v2になって何が変わりましたか?
答え2
公式の説明です。
1.韓国語と広東語をサポート
2.最適化されたテキストフロントエンド
3.事前トレーニング済みモデルが2,000時間から5,000時間に延長
4.低品質リファレンスオーディオの合成品質の向上
質問3
使い方を教えてください。
答え3
ここから「GPT-SoVITS-v2-240821.7z」をダウンロードして解凍します。
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main
go-webui.batを起動するとブラウザ上でwebuiが起動します。
ここで起動する前にgo-webui.batを編集してzh_CNのみ削除すると日本語でwebuiが表示されます。
中国語の解説と英語の解説があるので、好きな方を選んで翻訳してご覧ください。
中国語の方はv2に対応しています。
英語の方の使い方はまだv2に対応していませんが、基本は同じです。
使い方(中国語)
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e