/MB-iSTFT-BERT-VITS2-44100-Ja

Bert-VITS2のデコーダをMS-iSTFT-VITSのものに変更したもの。

Primary LanguagePythonGNU Affero General Public License v3.0AGPL-3.0

MB-iSTFT-BERT-VITS2

Bert-VITS2のデコーダをMB-iSTFT-VITSのデコーダに変更したもの。**実験用です。**自分の環境で動くことを最優先にして編集してあります。

1. 環境構築

Anacondaによる実行環境構築を想定する。

  1. Anacondaで"MB-iSTFT-BERT-VITS2"という名前の仮想環境を作成する。[y]or nを聞かれたら[y]を入力する。

    conda create -n MB-iSTFT-BERT-VITS2 python=3.8    
  2. 仮想環境を有効化する。

    conda activate MB-iSTFT-BERT-VITS2 
  3. このレポジトリをクローンする(もしくはDownload Zipでダウンロードする)

    git clone https://github.com/tonnetonne814/MB-iSTFT-BERT-VITS2-44100-Ja.git
    cd MB-iSTFT-BERT-VITS2-44100-Ja # フォルダへ移動
  4. https://pytorch.org/のURLよりPyTorchをインストールする。

    # OS=Linux, CUDA=11.7 の例
    conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
  5. その他、必要なパッケージをインストールする。

    pip install -r requirements.txt 
  6. HuggingFaceよりBERTのモデルデータをダウンロードし、以下に配置する。

    ./bert/bert-base-japanese-v3/pytorch_model.bin

2. データセットの準備

書き起こしテキストファイルとwavファイルが入ったフォルダを用意する。書き起こしテキストは「wavファイル名|書き起こし文」と記述したもの。dataset_nameの名前は話者名にも流用するようになっています。追記式になってるので、色々なデータセットを一つ一つ追加する。書き起こしテキストのパスは、テキストファイルが入っているフォルダでも可。

python3 preprocess.py --dataset_name name --dataset_folder path/to/wav/folder --dataset_language JP --text_path path/to/text.txt --split_symbol | 

必要なデータセットを追加し終えたら、以下を実行する。

python3 preprocess_text.py

4. 学習

次のコマンドを入力することで、学習を開始する。

⚠CUDA Out of Memoryのエラーが出た場合には、config.jsonにてbatch_sizeを小さくする。

```sh
python train_ms.py -c configs/jsut_44100.json -m ExpName
```

5.推論

webuiで動かす予定。そのままで動くはず...