seenahuang/voice-cloning-audio-gen

Python

voice-cloning-audio-gen

Tasks:

Speaker Encoder

https://arxiv.org/pdf/1710.10467.pdf

Create batch of data based on the above paper
Create the similarity matrix for cosine similarities between each embedding vector and centroids - Tyler
Custom loss function based on similarity matrix
Train encoder
Do validation/visualization on resulting embeddings ensuring embeddings for same speaker are clustered together, away from other speakers

Load and data and split into training, validation, test

Create embeddings