supikiti/Awesome-tts-and-vc

SCALABLE MULTILINGUAL FRONTEND FOR TTS

Opened this issue · 1 comments

リンク

https://arxiv.org/pdf/2004.04934.pdf

どんなもの?

  • TTSの前段におけるFrontEnd(FE): "文字列を音素列へ変換する処理"(テキスト正規化 & G2P)をS2Sで解決
  • 辞書によるルールベースのものおり合成音声の品質が改善

先行研究と比べてどこがすごい?

  • S2Sとしてtransformerモデルを活用

技術と手法のキモはどこ?

  • 入力文章を重複単語を含む複数の文章へ分割し使用 -> 長文でも高品質な音素列を生成可能

どうやって有効だと検証した?

  • BLEU, chrF3データセットでFEの性能をaccuracyにより計測
  • FEをルールベース,S2Sとしたものの合成音声を比較(英語の場合)
    • S2SのMOS = 4.38,ルールベースのMOS = 4.20

議論はある?

次に読むべき論文