yeyupiaoling/Whisper-Finetune

关于DataCollatorSpeechSeq2SeqWithPadding的一处问题

ILG2021 opened this issue · 4 comments

我在使用这个库微调的时候发现报错,后来检查发现有一处:
input_features = [{"input_features": feature["input_features"][0]} for feature in features]
正确应该是
input_features = [{"input_features": feature["input_features"]} for feature in features]

我是参考老外的教程呢:
https://huggingface.co/blog/fine-tune-whisper

使用他的notebook,我已经成功微调了很多版本了,应该没问题。不过如果数据集的处理方式不一样的,有可能是有区别。

你用我的会报错?

是的,他说我输入只有八通道,需要80通道。我使用的是audiofolder数据集,也就是metadata的那种。