关于DataCollatorSpeechSeq2SeqWithPadding的一处问题

Question

关于DataCollatorSpeechSeq2SeqWithPadding的一处问题

ILG2021 opened this issue a year ago · 4 comments

ILG2021 commented a year ago

我在使用这个库微调的时候发现报错，后来检查发现有一处：
input_features = [{"input_features": feature["input_features"][0]} for feature in features]
正确应该是
input_features = [{"input_features": feature["input_features"]} for feature in features]

Answer 1 · 2023-10-23T05:16:13.000Z

你这样输入出去就多了一个维度啊。

Answer 2 · 2023-10-23T06:09:48.000Z

我是参考老外的教程呢：
https://huggingface.co/blog/fine-tune-whisper

使用他的notebook，我已经成功微调了很多版本了，应该没问题。不过如果数据集的处理方式不一样的，有可能是有区别。

Answer 3 · 2023-10-23T06:21:31.000Z

你用我的会报错？

Answer 4 · 2023-10-23T06:32:10.000Z

你用我的会报错？

是的，他说我输入只有八通道，需要80通道。我使用的是audiofolder数据集，也就是metadata的那种。