딥러닝을 이용한 음성합성 관련 자료 모음
- 책 읽어주는 딥러닝 (김태훈, 2017.11)
- Tacotron에 대해 쉽게 이해할 수 있도록 DEVIEW 2017에서 발표한 영상
- 모두의 연구소 WaveNet 스터디 영상 (김승일, 2017.10)
- WaveNet에 대해 이해한 것을 설명 및 온라인 토론내용이 담긴 영상
- Generative Model-Based Text-to-Speech Synthesis (Heiga Zen, 2017.02)
- WaveNet 논문 저자 중 1명인 Heiga Zen이 소개하는 TTS 전반적인 기술 및 WaveNet 소개 영상
- 딥러닝, 사랑하는 사람의 목소리로 말하다 - 팝톡 블로그, 2018.03.27.
- AIA 생명의 캠페인 동영상 '마지막 인사' 및 음성합성기술에 대한 블로그 포스트
- CMU_ARCTIC (en)
- CMU의 Language Technologies Institute에서 음성합성 연구를 위해 만든 US English 데이터셋
- The LJ Speech Dataset (en)
- Keith Ito란 사람의 웹사이트에 올라와 있지만 어디서, 왜 만들었는지에 대한 내용은 찾지 못함
- Blizzard 2012 (en)
- Blizzard Challenge 2012라는 코퍼스기반 음성합성 챌린지에서 사용된 데이터셋
- CSTR VCTK Corpus (en)
- English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
- Festival Speech Synthesis System
- University of Edinburgh에서 개발한 오픈소스 Text-to-Speech 시스템. 최신버전은 Festival 2.5이며 2017.12.25.에 릴리즈 됨. 온라인데모에서 음성별로 들어볼 수 있음.
- https://github.com/ibab/tensorflow-wavenet
- https://github.com/r9y9/wavenet_vocoder (PyTorch)
- https://github.com/kan-bayashi/PytorchWaveNetVocoder (PyTorch)
WaveNet 학습시간이 너무 오래 걸려서 멀티 GPU를 이용하지 않으면 답이 나오지 않는 것 같다. 그와 관련된 코드 링크를 정리하였다.
- https://github.com/nakosung/tensorflow-wavenet/tree/multigpu (Tensorflow)
- WaveNet multi GPU 구현 버전
- https://github.com/nakosung/tensorflow-wavenet/tree/model_parallel (Tensorflow)
- WaveNet model parallelism 구현 버전
- https://github.com/tomlepaine/fast-wavenet
- https://github.com/dhpollack/fast-wavenet.pytorch (PyTorch)
- https://github.com/kensun0/Parallel-Wavenet (not a complete implement)
- https://github.com/keithito/tacotron
- https://github.com/Kyubyong/tacotron
- https://github.com/barronalex/Tacotron
- https://carpedm20.github.io/tacotron/ (Multi-speaker Tacotron in TensorFlow)
- Tactron 1과 Deep Voice 2의 Multi-speaker를 구현한 프로젝트
- https://github.com/riverphoenix/tacotron2 (구현됨)
- https://github.com/Rayhane-mamah/Tacotron-2 (구현중)
- https://github.com/selap91/Tacotron2 (구현중)
- https://github.com/CapstoneInha/Tacotron2-rehearsal
- https://github.com/A-Jacobson/tacotron2 (PyTorch)
- https://github.com/maozhiqiang/tacotron_cn (구현 확인 필요/중국어)
- https://github.com/LGizkde/Tacotron2_Tao_Shujie (체크 필요)
- https://github.com/ruclion/tacotron_with_style_control (Style Control)
- HybridNet: A Hybrid Neural Architecture to Speed-up Autoregressive Models (2018.02) - Yanqi Zhou et al.
- WaveNet을 이용해 오디오 컨텍스트를 뽑아내고, 그 컨텍스트로부터 LSTM을 이용해 다음 샘플들을 더 빠르게 생성하도록 했다고 함. WaveNet보다 MOS가 높고, 오디오 생성속도는 동일 음질수준 대비 2~4배까지 빠르다고 함. (예: 40-layer WAVENET vs. 20-layer WAVENET + 1 LSTM)
- ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech (2018.07) - Wei Ping et al.
- Gaussian autoregressive WaveNet을 teacher-net으로 하고 Gaussian inverse autoregressive flow을 student-net으로 하여 highly picked distribution에 대해 Regularized KL divergence를 최소화 했다고 함.
- End-to-end로 음성을 생성하는 text-to-wave 아키텍쳐를 제안.
- ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech - Baidu Research, 2018.07.20.
- Demo : NSynth: Neural Audio Synthesis
- Paper : Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders (2017.04)
- ISPEECH VOICE CLONING DEMOS
- 유명한 사람들의 voice cloning 데모를 들어볼 수 있음
- Speech Synthesis Markup Language (SSML)
- W3C에서 정의한 Speech Synthesis 마크업 언어. 합성할 텍스트에 발음, 볼륨, 음높이, 속도 등을 제어할 수 있도록 정의할 수 있음. 구글 TTS API에서도 SSML을 지원함.
- Fast Generation for Convolutional Autoregressive Models (2017.04) - Prajit Ramachandran et al.
- 이 기법을 Wavenet과 PixelCNN++ 모델에 적용하여 각각 최대 21배, 183배의 속도향상이 있었다고 함. 어디까지나 특정 상황에 대한 성능향상 최대치 이므로 실제 환경에서는 속도향상이 생각보다 크지 않을 수 있다는 것에 주의 필요.