leson502/Speech_project_Vin

Dataset

We using dataset CREMA-D Link Dataset

NOTE

Pretrained Weight for Multimodal

Training Guidline This source code train with Kaggle using Pytorch version

You need pip install timm version 0.4.5 for load Audio_Encoder
Using config.yaml to fix the name folder dataset, weight load
Run train_kaggle.inypb for training