hiyouga/LLaMA-Factory

在不启用流式数据读入的情况下数据是否会被shuffle

Closed this issue · 1 comments

Reminder

  • I have read the README and searched the existing issues.

Reproduction

在sft时,如果我不使用streaming的方式读入数据,那训练数据在训练之前是否会进行shuffle。
经过研读代码,我发现dataset相关的显式shuffle函数调用都是在 streaming=True 条件下,也没有在文档中或者--help中找到数据集shuffle相关的参数设置或者说明,因此有这个疑问

Expected behavior

No response

System Info

No response

Others

No response

不流式时候会自动 shuffle,逻辑没有显式写出来