jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese

请教下数据集规模

TZWwww opened this issue · 2 comments

TZWwww commented

非常感谢您很有意义的工作,想请教一下所使用到的instruction-tuning的数据量。
另外,想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢?
非常感谢

之前的是QA数据集,大约12M。
「想再请教一下是否有探究多大的instruction-tuning数据量就够用了呢」原则上是数据质量越高越好、数据多样性越多越好,一般一种类型2W+ 即可。

请问12M是disk size,还是instruction数量?