yzspku/CQTNet

data.shape[0] < 200的时候需要对数据补零

Opened this issue · 1 comments

作者您好,在test的时候cut_data_front函数中当data.shape[0] < 200的时候需要对数据补零,如果两个不同音频的cqt的长度一个70 一个80的话,对他们都进行补零,那么对特征进行欧氏距离计算,则距离会相对较小,极容易误认为是相似的音频,请问对cqt长度小于200的情况,该如何处理呢?期待您的回复,谢谢~

作者您好,在test的时候cut_data_front函数中当data.shape[0] < 200的时候需要对数据补零,如果两个不同音频的cqt的长度一个70 一个80的话,对他们都进行补零,那么对特征进行欧氏距离计算,则距离会相对较小,极容易误认为是相似的音频,请问对cqt长度小于200的情况,该如何处理呢?期待您的回复,谢谢~

这个版本的模型适用于整曲,训练是整曲上进行,模型结构也是为整曲设计,同时也评估过直接用在短音频上效果不太好。 如果场景是短音频,建议用短音频训练,and修改模型尺寸参数。 如果仍然用该套模型,建议对短音频cqt复制N份满足>=200长度