一个由于精度引发的对于输出处理的问题

Question

一个由于精度引发的对于输出处理的问题

NaruseMioShirakana opened this issue 2 years ago · 0 comments

NaruseMioShirakana commented 2 years ago

在pytorch的环境中，使用librosa重采样之后输出的结果没有问题。
在使用onnx或者切换重采样的方法后，发现输出的结果发生了比较大的变化。
而这个变化影响最大的就是Midi文件的输出。
reg_onset_output, reg_offset_output, reg_pedal_onset_output, reg_pedal_offset_output 存在一些比较大的误差 (其他三个输出可能影响不是太大所以没有列举)
由于reg_onset_output的一些误差，导致了大于阈值的数目高于期待的数目 (torch+原采样算法的输出)，最终导致输出的midi出现了“意料之外的音符”。
所以在此我有两个问题想要请教：
如果只使用frame_output来判断音符的有无 (目前我采用这种方法，确实改善了onnx的输出)，会不会在一些比较特殊的输入中有着比较差的表现？使用reg_onset_output判断NoteOn事件比起frame_output有哪些好处？