请教下数据集规模
TZWwww opened this issue · 2 comments
TZWwww commented
非常感谢您很有意义的工作,想请教一下所使用到的instruction-tuning的数据量。
另外,想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢?
非常感谢
jerry1993-tech commented
之前的是QA数据集,大约12M。
「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好,一般一种类型2W+ 即可。
luxinglong commented
请问12M是disk size,还是instruction数量?