bytedance/piano_transcription

一个由于精度引发的对于输出处理的问题

Opened this issue · 0 comments

在pytorch的环境中,使用librosa重采样之后输出的结果没有问题。
在使用onnx或者切换重采样的方法后,发现输出的结果发生了比较大的变化。
而这个变化影响最大的就是Midi文件的输出。
reg_onset_output, reg_offset_output, reg_pedal_onset_output, reg_pedal_offset_output 存在一些比较大的误差 (其他三个输出可能影响不是太大所以没有列举)
由于reg_onset_output的一些误差,导致了大于阈值的数目高于期待的数目 (torch+原采样算法的输出),最终导致输出的midi出现了“意料之外的音符”。
所以在此我有两个问题想要请教:
如果只使用frame_output来判断音符的有无 (目前我采用这种方法,确实改善了onnx的输出),会不会在一些比较特殊的输入中有着比较差的表现?使用reg_onset_output判断NoteOn事件比起frame_output有哪些好处?