rild/TIL

後で読む 11/07~

Opened this issue · 15 comments

rild commented

論文とか記事とかの後で読むリスト

読もう。。。

rild commented

http://ieeexplore.ieee.org/document/7881869/?reload=true

Study of speech features robustness for speaker verification application in noisy environments

話者特性として工学的に扱える情報はどんなものがあるのか、
ときになってググったときにでてきた論文。

雑音環境下でGMMベースのシステムが音声認識を行うときに、
どの特徴量をみるとエラーが少なくなるか、という論文。

直接は関係ないかも。。。
学習データに雑音ないし。

Tacotronの学習がうまくいっていないことから。

rild commented

keithito/tacotron#72

monotonic attention mechanism をオススメされたので読んでみる

rild commented

ほぅ...

rild commented

やらなきゃ

rild commented

ゴールは同じなんだけど
思考が並行して色々考えてる気がする

rild commented

http://tam5917.hatenablog.com/entry/2016/09/18/131458

Wavenet も右も左もわからない状態の時に読んでたから、
もう一度読み直す & 実装する

とかやらないと

rild commented

https://arxiv.org/abs/1709.07552

アブストの冒頭に「このプロジェクトの目的は、English TTS System の開発と実装である」と書いてある。
オープンソースなソースコードのリンクがあるかな..?()

2017, Sep 22

  • 音声合成手法
    がまとめられているだけではなく、
  • 人間の発話機構
  • 音声合成手法の評価
    にも言及されている。
    盛りだくさん。

diphone ってなんだ: wiki

(アブストの後半読み飛ばした。)


追記:
138 p もある、すっごーい!!

rild commented

https://arxiv.org/abs/1710.11385

Audio style transfer

2017, Oct 31

rild commented

https://www.slideshare.net/ShinnosukeTakamichi/moment-matching-network

Moment Machting を使って、ランダム性を含んだ音声合成システムを作る、、、
というスライド。

13枚。

rild commented

http://r9y9.github.io/blog/2017/11/12/jsut_ver1/

一通り目を通したけれど、ログ残し的な意味で