SCALABLE MULTILINGUAL FRONTEND FOR TTS
Opened this issue · 1 comments
supikiti commented
リンク
https://arxiv.org/pdf/2004.04934.pdf
どんなもの?
- TTSの前段におけるFrontEnd(FE): "文字列を音素列へ変換する処理"(テキスト正規化 & G2P)をS2Sで解決
- 辞書によるルールベースのものおり合成音声の品質が改善
先行研究と比べてどこがすごい?
- S2Sとしてtransformerモデルを活用
技術と手法のキモはどこ?
- 入力文章を重複単語を含む複数の文章へ分割し使用 -> 長文でも高品質な音素列を生成可能
どうやって有効だと検証した?
- BLEU, chrF3データセットでFEの性能をaccuracyにより計測
- FEをルールベース,S2Sとしたものの合成音声を比較(英語の場合)
- S2SのMOS = 4.38,ルールベースのMOS = 4.20
議論はある?
次に読むべき論文
supikiti commented
Byte Pair Encodingとは