WaveGlow관련 문의 및 speaker_id 관련 문의

Question

Moon-sung-woo opened this issue 3 years ago · 0 comments

안녕하세요! 전에 질문드렸던 학생입니다!

답변주셔서 너무 감사합니다!!

더 여쭤보고 싶은게 있어서 이슈를 하나 더 만들었습니다.

WaveGlow를 single speaker로 학습시키고 pitchtron또한 single speaker로 학습을 시켰습니다. 이때 제가 다름사람의 목소리를 가지고 음성합성을 진행해보니 다른사람의 목소리가 나오지 않고 single speaker로 목소리가 함성되어 나왔습니다. 이런경우 pitchtron을 새로 합성해야 하나요? 아니면 WaveGlow를 다시 학습시켜야 하나요? 아니면 둘다 새로 학습을 진행해야 하는지 여줘보고 싶습니다.
speaker id는 훈련에 사용되는 음원이 어느 화자의 목소리인지에 대한 정보를 가지고 있어서 원하는 화자의 목소리로 합성하기 위함이라고 하셨는데 코드를 보니 GST가 사용되었는데 왜 사용하는지 궁금합니다.
제가 알기로는 GST가 reference audio의 특징점을 학습하여 reference audio처럼 말하기 위해 쓰는것으로 알고 있습니다. 하지만 speaker id로 화자의 목소리를 합성할 수 있다면 GST는 필요가 없는게 아닌지 여쭤보고 싶습니다!
혹시 2번 질문이 아니라면 여러사람의 특징점을 뽑기 위해서 GST가 사용되는지 여쭤보고 싶습니다.
(예를들어 한사람의 목소리만을 학습시키고 감정표현만 시키기 위해서는 GST가 필요없지만, 여러사람의 목소리를 학습시키고 감정표현까지 해야된다면 GST가 필요하다!) 이게 맞는지 여쭤보고 싶습니다.

답변 주셔서 너무 감사하고 귀한 시간 내 답변 주셔서 정말 감사합니다!