请教数据集的大小
2018211801 opened this issue · 1 comments
2018211801 commented
你好呀,请问目前此数据集规模有多大呀?我想了解下在llama上预训练的时间花费。在知乎看到使用此数据集,16卡一个半小时就能训完非常好奇。
shjwudp commented
@2018211801 你好!欢迎提问,这个数据集目前在huggingface上维护,链接,清洁文本token数目应该在1B左右。
另外,好奇问一下,我不知道有人在用这个数据集训练,帮忙共享我一下知乎上的链接,感谢。