Multimodal-Pathological-Voice

多模態病理嗓音分類競賽競賽連結

隊伍名稱: TEAM_3042

Preprocess

病歷資料

參考preprocess.ipynb,其中SmokingDrinkingOnset of dysphoniaDiurnal pattern 種類型欄位以 one-hot 方式處理,其餘數值型欄位以 min-max 方式正規化

音訊資料

因音訊長度不一,會將音訊自身頭尾相連的方式 concat 直到長度達最大音訊長度

Before concat After concat

並引用BEATs: Audio Pre-Training with Acoustic Tokenizers預訓練權重提取音訊特徵,可得到 shape (408, 768) 的特徵

Training

參考beats-dense.ipynb,模型架構如下圖,將音訊特徵與病歷資料各自經過 Denseconcat 起來做分類

訓練資料為 90% 資料量,其餘 10% 會在訓練階段以 accuracy 評估指標挑選最佳模型權重;訓練階段也會根據類別數量計算對應 class weight,提高資料量少的類別權重