PlayVoice/Grad-SVC

电音现象问题请教

postmelone opened this issue · 1 comments

想请教一下,在经过扩散模型之前的声学模型,也就是从hubert 到 mel的这个阶段,这个出来的mel直接送到声码器,为啥会有电音现象呀,按理来说,hubert已经包含足够多的信息了,为什么生成的mel谱还有那么多平行的共振峰呢?楼主有没有试过用wavLM替代hubert呀?

电音是由于mel的模糊导致的;从hubert到mel,模型的建模能力不够就会导致mel丢失细节,从而产生电音。wavLM没有试过。