在不启用流式数据读入的情况下数据是否会被shuffle
Closed this issue · 1 comments
Limerence0502 commented
Reminder
- I have read the README and searched the existing issues.
Reproduction
在sft时,如果我不使用streaming的方式读入数据,那训练数据在训练之前是否会进行shuffle。
经过研读代码,我发现dataset相关的显式shuffle函数调用都是在 streaming=True 条件下,也没有在文档中或者--help中找到数据集shuffle相关的参数设置或者说明,因此有这个疑问
Expected behavior
No response
System Info
No response
Others
No response
hiyouga commented
不流式时候会自动 shuffle,逻辑没有显式写出来