2024/1/16作成
最終更新 2024/3/4
GPT-SoVITSの使い方

まだGPT-SoVITSはベータ版です。
今後大きく改善される可能性があります。

ここからGPT-SoVITS-beta.7zをダウンロードして解凍する。
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main

最新版に更新したい場合はここから緑色のCodeボタンを押してDownload ZIPを押す。
https://github.com/RVC-Boss/GPT-SoVITS
その後ZIPを解凍して出てきたファイルをGPT-SoVITS-betaフォルダの中に入れて上書きすれば最新版になる。

go-webui.batを起動。

0a-UVR5ボーカルアカンパニメント分離&リバーブおよびディレイ除去ツール
UVR5-WebUIをオンにしますかにチェックを入れるとUVR5-WebUIが起動する。
ガイドに従い音声を抽出する。

0b-音声分割ツール
ガイドに従い学習に使用する音声のパスを入力。
ボタンを押す。
音声が自動で分割される。

0bb-语音降噪工具(ノイズ除去ツール)
音声のノイズを除去したい場合はこちらを使用する。

0c-中国語バッチオフラインASRツール
分割された音声があるフォルダのパスを入力。
Faster Whisper・large・jaを選択。
ボタンを押す。
listファイルが作成される。

0d-音声テキストの校正アノテーションツール
テキスト校正をしたい人用のツール。
listファイルのパスを入力。
WebUIを使用したアノテーションを開始しますかにチェックを入れるとテキスト校正ツールが起動する。

上部の1-GPT-SoVITS-TTSのタブに移動。

1A-トレーニングデータのフォーマットツール
モデル名を入力。
listファイルのパスを入力。
分割された音声があるフォルダのパスを入力。
一番下のボタンを押す(上三つのボタンの処理を一括で行ってくれる)。

1B-ファインチューニングトレーニング
batch_sizeとepoch数を入力。
SoVITSボタンを押す。
学習完了まで待つ。

その下も同様。
batch_sizeとepoch数を入力。
GPTボタンを押す。
学習完了まで待つ。
是否开启dpo训练选项(实验性)は公式では非推奨なのでチェックを入れる必要はない。

これで学習完了。

GPT-SoVITS-TTSの1C-推論タブに移動。
作成したモデルを選択。
TTS推論WebUIを開くにチェックを入れるとTTS用のWebUIが起動。

学習に使用した分割音声のどれかをアップロードする。
その音声の文章を入力する。(アップデートにより文章を入力しなくてもよくなった)
言語を選択する。

読ませたい文章を入力する。
言語を選択する。
音声が合成される。

長文を入力すると音声がおかしくなることがあるので、出来るだけ長文は改行した方がよい。

ゼロショットTTSをする方法
GPT-SoVITS-TTSの1C-推論タブに移動。
あらかじめ用意されている事前学習済みモデルを選択。
WebUIにチェックを入れるとTTS用のWebUIが起動。

好きな音声をアップロードする。
その音声の文章を入力する。
言語を選択する。

読ませたい文章を入力する。
言語を選択する。
音声が合成される。

Edit
Pub: 16 Jan 2024 06:38 UTC
Edit: 07 May 2024 22:13 UTC
Views: 594