/Speech

first speech research, have fun~

Primary LanguageJupyter Notebook

Speech

First speech research, have fun~

本项目为语音模型的学习项目,目前总共有三个部分:

  1. 语音SSL模型的复现
  2. Benchmarks的使用
  3. 语音技术基础

SSL模型的复现

  1. 理解各个库的源码
  2. 学习使用Transformer
  3. 梳理和比较不同的模型之间的共性和差异

语音SSL模型包括

  1. Wav2vec 2.0
  2. HuBERT
  3. WavLM
  4. SpeechLM
  5. Whisper(并不是SSL,但是也学一下)

Benchmarks的使用

  1. 学会使用SUPERB Benchmark
  2. 学会使用ASR librispeech数据库
  3. 其他库:SUPERB-SG 和 SUPERB-prosody
  4. 跑一下模型在上面的结果

语音技术学习

  1. 语音处理课程(李宏毅老师的2020年NLP课程)