Chinese text to speech ,中文语音合成
综合github上的几个项目对merlin的简化,模型基于tf2.keras
对于sample_rate=22050,hop_size=256
的melgan声码器,merlin前端特征对齐参数是:
frame_period =1000*hop_size/sample_rate
frame_shift_in_micro_sec=int(frame_period*10000)
基于fastspech2
的音色克隆。包括tacotron2、fastspeech2、lightspeech、hifi-gan
训练,整个过程基于TensorFlowTTS。