auspicious3000/SpeechSplit

关于训练效果

p1an-lin-jung opened this issue · 1 comments

作者您好,我用这份代码在中文上试了很多不同的瓶颈维度,也尝试了对采样率作修改,但是效果都不好。然后,我用原版的瓶颈在VCTK数据集上训练,但不论是重构音频,还是语音转换,或者移除节奏、内容和音高,都没能达到论文里以及预训练模型的效果。
这应该从哪里进行改进?还是说我下载的VCTK(https://datashare.ed.ac.uk/handle/10283/3443)版本和你们不一样?

这是个很难回答的问题……