/DDSP-HiFiGAN

基于PC-DDSP和nsf-HiFiGAN的声码器

Primary LanguagePythonMIT LicenseMIT

DDSP-HiFiGAN:基于PC-DDSP和NSF-HiFiGAN的声码器

DDSP-HiFiGAN是一个基于PC-DDSP和NSF-HiFiGAN的声码器,由DSPGAN所启发,同时具有PC-DDSP无限变调的优势和NSF-HiFiGAN高音质的优势。

使用方法

1. 安装依赖

执行以下命令以安装依赖。

pip install -r requirements.txt 

2. 获取预训练模型

PC-DDSP模型

可以依照pc-ddsp来训练一个ddsp模型, 把训练好的模型权重文件model_xxx.pt和配置文件config.yaml一同放到目录pretrained/ddsp下。

NSF-HiFiGAN模型

可以下载openvpi训练的社区声码器,使用时请遵循相关协议。把配置文件config.json、鉴别器权重do_xxx、生成器权重g_xxx一同放到目录pretrained/hifigan下。

3. 数据预处理

把用于训练的wav音频数据放到data/train/audio下,用于验证的wav音频数据放到data/val/audio下,再执行以下命令:

python preprocess.py

4. 微调NSF-HiFiGAN

目前仅支持从已有的权重微调NSF-HiFiGAN,暂不支持从头开始训练或与ddsp级联训练。

python train.py

5. 可视化微调效果

tensorboard --logdir=pretrained/hifigan/logs

6. 从wav中推理

如果想要突破声码器的音域限制,那么就可以-ak参数。

python inference.py -dm <ddsp model path> -hm <hifigan model path> -i <input.wav> -o <output.wav> -k <keychange (semitones)> -ak <adaptive_key (semitones)>

注意事项

仅在单卡下(autodl的3090)测试过,无法保证多卡训练不出错,并且单卡一般已经足够微调。