主要功能:diffsinger、visinger数据集一键制作
- 长录播音频切片
- 基于demucs伴奏分离
- 基于whisper语音识别
- mfa对齐
- 完成后处理,构建diffsinger nomidi格式数据集
开发中,,仅在mac和linux下通过部分测试,可能有各种bug!若要尝试请备份好自己的数据!!!!
需要安装的依赖:
- ffmpeg
- demucs==4.0.0 auditok zhconv pypinyin librosa matplotlib praat-parselmouth pyyaml soundfile sox textgrid
- git+https://github.com/openai/whisper.git
dataset
├───speaker0
│ ├───录播1.mp4
│ ├───...
│ └───录播2.mp4
└───speaker1
├───录播1.mp4
├───...
└───录播2.mp4