bejaeger/autoregressive-tts

Python

dolphin

specs

use snac speech audio codec
train gpt-2 to predict audio tokens auto-regressively

install

clone repo
update submodules git submodule update --init --recursive
download snac model using git lfs cd model/codec/snac/snac_24khz & git lfs pull
install dependencies pip install -r requirements.txt

roadmap

future projects

use RWKV instead of gpt2 https://github.com/BlinkDL/RWKV-LM
add speaker style conditioning