关于使用tacotron2训练过拟合的问题,wavernn调用的问题
weakchicken-19 opened this issue · 1 comments
weakchicken-19 commented
首先感谢大佬的贡献,在复现代码的时候碰到如下问题
1, 使用200条数据集替换D8拟合时,按照文档要求调整了haparms.py 中的参数
fmin = 55,
fmax = 7600,
trim_silence = True,
trim_fft_size = 2048,
trim_hop_size = 512,
trim_top_db = 18,
num_mels = 80,
num_freq = 401,
rescale = True,
rescaling_max = 0.999, #Rescaling value
use_lws=False,
silence_threshold=2,
#Mel spectrogram
n_fft = 1024, #Extra window size is filled with 0 paddings to match this parameter
hop_size = 200, #For 22050Hz, 275 ~= 12.5 ms (0.0125 * sample_rate)
win_size = 800, #For 22050Hz, 1100 ~= 50 ms (If None, win_size = n_fft) (0.05 * sample_rate)
sample_rate = 16000, #22050 Hz (corresponding to ljspeech dataset) (sox --i <filename>)
frame_shift_ms = None, #Can replace hop_size parameter. (Recommended: 12.5)
magnitude_power = 2., #The power of the spectrogram magnitude (1. for energy, 2. for power)
在训练到第200 轮的时候 合成语音可以清晰发音,随着训练轮数增加,loss降低在0.5左右,但是合成的声音不能辨别,请问这块问题出在哪里,应该如何调整
- 如何使用wave rnn合成语音呢?
这边跑了wavernn_gen.py文件,只输出了模型评估,但是没听到合成的语音
希望作者帮忙解答一下,谢谢~
Email : leonlee1997@outlook.com
lturing commented
finetune时,除了 fmin, trim_top_db外 ,其余的参数最好保持跟tacotron_hparams.py一致。
tacotron_train.py默认会训练3000步。
对1,你首先检查你的输入,观察训练过程中的alignment图是否是好的
对2,gen_wavernn.py的输出目录在这行