Multimodal-Pathological-Voice

多模態病理嗓音分類競賽競賽連結

隊伍名稱: TEAM_3042

Preprocess

參考preprocess.ipynb，其中Smoking、Drinking、Onset of dysphonia、Diurnal pattern 種類型欄位以 one-hot 方式處理，其餘數值型欄位以 min-max 方式正規化

因音訊長度不一，會將音訊自身頭尾相連的方式 concat 直到長度達最大音訊長度

Before concat	After concat

並引用BEATs: Audio Pre-Training with Acoustic Tokenizers的預訓練權重提取音訊特徵，可得到 shape (408, 768) 的特徵

參考beats-dense.ipynb，模型架構如下圖，將音訊特徵與病歷資料各自經過 Dense 後 concat 起來做分類

訓練資料為 90% 資料量，其餘 10% 會在訓練階段以 accuracy 評估指標挑選最佳模型權重；訓練階段也會根據類別數量計算對應 class weight，提高資料量少的類別權重