关于音色迁移

Question

Closed this issue a year ago · 3 comments

感觉跨语言跨性别迁移的时候，迁移过来的音色还是带着一些外文的味道。比如 input：中文男性声音 ref：女性英文声音。输出的女性声音可以说中文，但是带英文的味道。

我想问，是不是可以考虑使用whisper-large-v2作为whisper的模型？但我看不能直接用，因为模型维度不一样，medium.pt是1024，larget-v2.pt是1280。

求问作者有什么好办法解决这个问题么？

是的

Answer 1 · 2023-11-01T12:19:58.000Z

把config文件里面的ssl_dim从1024改成1280应该就可以了

Answer 2 · 2023-11-01T12:29:17.000Z

把config文件里面的ssl_dim从1024改成1280应该就可以了

但是我想使用你的预训练模型。是不是只能重新训练。