ConsistencyVC/ConsistencyVC-voive-conversion

Can I finetune the pretrained model on my own dataset

Closed this issue · 6 comments

Great work. I have try the pretrained model, the performance is good, but the timbre is not closely on my own dataset. Should i finetune the pretrained model on my own dataset or trained a new model on my dataset

tppqt commented

How can I train my own model? Could you provide the steps?

@josh-zhu Yes, just like what I said in the paper, for the unseen speaker, the speaker similarity will decrease.
If you don't care about the 16khz sample rate, finetune the pretrained model on your own dataset is fine.

@tppqt 代码使用的过程中又遇到了什么问题吗?

tppqt commented

@tppqt 代码使用的过程中又遇到了什么问题吗?

用你提供的预训练模型已经成功推理出来了,女声的音色很像,男声的音色效果不太好,你是用的什么数据库训练的啊,我在想重新训练一下模型,看是不是模型数据量的问题

@tppqt 代码使用的过程中又遇到了什么问题吗?

用你提供的预训练模型已经成功推理出来了,女声的音色很像,男声的音色效果不太好,你是用的什么数据库训练的啊,我在想重新训练一下模型,看是不是模型数据量的问题

是用的哪个模型呢,用whisper作为输入的跨语言语音转换模型,还是用ppg作为输入的情感语音转换模型?
如果是whisper的话,使用的数据集包括:LibriTTS-100,JVS,Aishell3。
对于训练集中没出现的说话人,音色就不相似 这个问题,我还没想到合适的解决办法,我不确定再继续增大数据集中的说话人数量,真的会有效吗?
如果可以的话,还是建议你用你的数据fine tune一下预训练模型。

tppqt commented

@tppqt 代码使用的过程中又遇到了什么问题吗?

用你提供的预训练模型已经成功推理出来了,女声的音色很像,男声的音色效果不太好,你是用的什么数据库训练的啊,我在想重新训练一下模型,看是不是模型数据量的问题

是用的哪个模型呢,用whisper作为输入的跨语言语音转换模型,还是用ppg作为输入的情感语音转换模型? 如果是whisper的话,使用的数据集包括:LibriTTS-100,JVS,Aishell3。 对于训练集中没出现的说话人,音色就不相似 这个问题,我还没想到合适的解决办法,我不确定再继续增大数据集中的说话人数量,真的会有效吗? 如果可以的话,还是建议你用你的数据fine tune一下预训练模型。

用的whisper