DDSP-HiFiGAN是一个基于PC-DDSP和NSF-HiFiGAN的声码器,由DSPGAN所启发,同时具有PC-DDSP无限变调的优势和NSF-HiFiGAN高音质的优势。
执行以下命令以安装依赖。
pip install -r requirements.txt
可以依照pc-ddsp来训练一个ddsp模型, 把训练好的模型权重文件model_xxx.pt
和配置文件config.yaml
一同放到目录pretrained/ddsp
下。
可以下载openvpi训练的社区声码器,使用时请遵循相关协议。把配置文件config.json
、鉴别器权重do_xxx
、生成器权重g_xxx
一同放到目录pretrained/hifigan
下。
把用于训练的wav音频数据放到data/train/audio
下,用于验证的wav音频数据放到data/val/audio
下,再执行以下命令:
python preprocess.py
目前仅支持从已有的权重微调NSF-HiFiGAN,暂不支持从头开始训练或与ddsp级联训练。
python train.py
tensorboard --logdir=pretrained/hifigan/logs
如果想要突破声码器的音域限制,那么就可以-ak参数。
python inference.py -dm <ddsp model path> -hm <hifigan model path> -i <input.wav> -o <output.wav> -k <keychange (semitones)> -ak <adaptive_key (semitones)>
仅在单卡下(autodl的3090)测试过,无法保证多卡训练不出错,并且单卡一般已经足够微调。