supikiti/Awesome-tts-and-vc

SCALABLE MULTILINGUAL FRONTEND FOR TTS

Opened this issue 4 years ago · 1 comments

supikiti commented 4 years ago

リンク

https://arxiv.org/pdf/2004.04934.pdf

どんなもの？

TTSの前段におけるFrontEnd(FE): "文字列を音素列へ変換する処理"(テキスト正規化 & G2P)をS2Sで解決
辞書によるルールベースのものおり合成音声の品質が改善

先行研究と比べてどこがすごい？

S2Sとしてtransformerモデルを活用

技術と手法のキモはどこ？

入力文章を重複単語を含む複数の文章へ分割し使用 -> 長文でも高品質な音素列を生成可能

どうやって有効だと検証した？

BLEU, chrF3データセットでFEの性能をaccuracyにより計測
FEをルールベース，S2Sとしたものの合成音声を比較(英語の場合)
- S2SのMOS = 4.38，ルールベースのMOS = 4.20

議論はある？

次に読むべき論文

Text Normalization: https://arxiv.org/pdf/1611.00068.pdf, https://www.isca-speech.org/archive/Interspeech_2017/pdfs/1274.PDF, https://www.aclweb.org/anthology/N19-2024.pdf

supikiti commented 4 years ago

Byte Pair Encodingとは

https://www.slideshare.net/ssuserd79a5c1/2019bpe