关于使用tacotron2训练过拟合的问题，wavernn调用的问题

Question

关于使用tacotron2训练过拟合的问题，wavernn调用的问题

weakchicken-19 opened this issue 4 years ago · 1 comments

首先感谢大佬的贡献，在复现代码的时候碰到如下问题
1，使用200条数据集替换D8拟合时，按照文档要求调整了haparms.py 中的参数

   fmin = 55, 
   fmax = 7600, 
   trim_silence = True, 
trim_fft_size = 2048, 
trim_hop_size = 512, 
trim_top_db = 18, 
    num_mels = 80, 
num_freq = 401, 
rescale = True, 
rescaling_max = 0.999, #Rescaling value
    use_lws=False, 
silence_threshold=2, 

#Mel spectrogram
n_fft = 1024, #Extra window size is filled with 0 paddings to match this parameter
hop_size = 200, #For 22050Hz, 275 ~= 12.5 ms (0.0125 * sample_rate)
win_size = 800, #For 22050Hz, 1100 ~= 50 ms (If None, win_size = n_fft) (0.05 * sample_rate)
sample_rate = 16000, #22050 Hz (corresponding to ljspeech dataset) (sox --i <filename>)
frame_shift_ms = None, #Can replace hop_size parameter. (Recommended: 12.5)
magnitude_power = 2., #The power of the spectrogram magnitude (1. for energy, 2. for power)

tacotron_hparams.txt

在训练到第200 轮的时候合成语音可以清晰发音，随着训练轮数增加，loss降低在0.5左右，但是合成的声音不能辨别，请问这块问题出在哪里，应该如何调整

如何使用wave rnn合成语音呢？
这边跑了wavernn_gen.py文件，只输出了模型评估，但是没听到合成的语音

希望作者帮忙解答一下，谢谢~

Email : leonlee1997@outlook.com

Answer 1 · 2021-01-14T13:27:44.000Z

finetune时，除了 fmin， trim_top_db外，其余的参数最好保持跟tacotron_hparams.py一致。
tacotron_train.py默认会训练3000步。

对1，你首先检查你的输入，观察训练过程中的alignment图是否是好的

对2，gen_wavernn.py的输出目录在这行