lturing/tacotronv2_wavernn_chinese

关于使用tacotron2训练过拟合的问题,wavernn调用的问题

weakchicken-19 opened this issue · 1 comments

首先感谢大佬的贡献,在复现代码的时候碰到如下问题
1, 使用200条数据集替换D8拟合时,按照文档要求调整了haparms.py 中的参数

   fmin = 55, 
   fmax = 7600, 
   trim_silence = True, 
trim_fft_size = 2048, 
trim_hop_size = 512, 
trim_top_db = 18, 
    num_mels = 80, 
num_freq = 401, 
rescale = True, 
rescaling_max = 0.999, #Rescaling value
    use_lws=False, 
silence_threshold=2, 

#Mel spectrogram
n_fft = 1024, #Extra window size is filled with 0 paddings to match this parameter
hop_size = 200, #For 22050Hz, 275 ~= 12.5 ms (0.0125 * sample_rate)
win_size = 800, #For 22050Hz, 1100 ~= 50 ms (If None, win_size = n_fft) (0.05 * sample_rate)
sample_rate = 16000, #22050 Hz (corresponding to ljspeech dataset) (sox --i <filename>)
frame_shift_ms = None, #Can replace hop_size parameter. (Recommended: 12.5)
magnitude_power = 2., #The power of the spectrogram magnitude (1. for energy, 2. for power)

tacotron_hparams.txt

在训练到第200 轮的时候 合成语音可以清晰发音,随着训练轮数增加,loss降低在0.5左右,但是合成的声音不能辨别,请问这块问题出在哪里,应该如何调整

  1. 如何使用wave rnn合成语音呢?
    这边跑了wavernn_gen.py文件,只输出了模型评估,但是没听到合成的语音

希望作者帮忙解答一下,谢谢~

Email : leonlee1997@outlook.com

finetune时,除了 fmin, trim_top_db外 ,其余的参数最好保持跟tacotron_hparams.py一致。
tacotron_train.py默认会训练3000步。

对1,你首先检查你的输入,观察训练过程中的alignment图是否是好的

对2,gen_wavernn.py的输出目录在这行