thuiar/MMSA-FET

请教音频特征归一化问题

zhchen18 opened this issue · 2 comments

尊敬的开发者您好!

非常感谢您贡献M-SENA框架,相信这会有力推进MSA领域的发展。

最近在使用MMSA-FET提取音频特征时,发现如opensmile里的eGeMAPSv02 set,其特征向量在某些维度的值非常大(>1000)。
但在MMSA框架里似乎并未对音频特征进行归一化,MMDataset.__normalize()更像是一个平均池化操作。
想请教您,如何在不影响其他特征维度特异性的前提下,对这些大值特征进行归一化?

非常感谢。

您好,感谢您对我们工作的关注。

MMDataset.__normalize()不是音频特征归一化,当前MMSA框架中没有特征归一化的代码。

如何在不影响其他特征维度特异性的前提下,对这些大值特征进行归一化?

对于音频特征,在语音领域一般是在时序上进行归一化操作。如果这些数值比较大的特征维度(主要是F1频率,F2频率,F3频率)影响了模型训练,可以考虑剔除这几个维度。或者进行特征维度上的归一化(会影响特征在时序上的效果),这个要看具体需求和取舍了。

了解,非常感谢您的回复!