Bert-VITS2のデコーダをMB-iSTFT-VITSのデコーダに変更したもの。**実験用です。**自分の環境で動くことを最優先にして編集してあります。
Anacondaによる実行環境構築を想定する。
-
Anacondaで"MB-iSTFT-BERT-VITS2"という名前の仮想環境を作成する。[y]or nを聞かれたら[y]を入力する。
conda create -n MB-iSTFT-BERT-VITS2 python=3.8
-
仮想環境を有効化する。
conda activate MB-iSTFT-BERT-VITS2
-
このレポジトリをクローンする(もしくはDownload Zipでダウンロードする)
git clone https://github.com/tonnetonne814/MB-iSTFT-BERT-VITS2-44100-Ja.git cd MB-iSTFT-BERT-VITS2-44100-Ja # フォルダへ移動
-
https://pytorch.org/のURLよりPyTorchをインストールする。
# OS=Linux, CUDA=11.7 の例 conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
-
その他、必要なパッケージをインストールする。
pip install -r requirements.txt
-
HuggingFaceよりBERTのモデルデータをダウンロードし、以下に配置する。
./bert/bert-base-japanese-v3/pytorch_model.bin
書き起こしテキストファイルとwavファイルが入ったフォルダを用意する。書き起こしテキストは「wavファイル名|書き起こし文」と記述したもの。dataset_nameの名前は話者名にも流用するようになっています。追記式になってるので、色々なデータセットを一つ一つ追加する。書き起こしテキストのパスは、テキストファイルが入っているフォルダでも可。
python3 preprocess.py --dataset_name name --dataset_folder path/to/wav/folder --dataset_language JP --text_path path/to/text.txt --split_symbol |
必要なデータセットを追加し終えたら、以下を実行する。
python3 preprocess_text.py
次のコマンドを入力することで、学習を開始する。
⚠CUDA Out of Memoryのエラーが出た場合には、config.jsonにてbatch_sizeを小さくする。
```sh
python train_ms.py -c configs/jsut_44100.json -m ExpName
```
webuiで動かす予定。そのままで動くはず...