请问这些预训练数据加起来有多少token呀
StarCycle opened this issue · 2 comments
StarCycle commented
请问这些预训练数据加起来有多少token呀,现在是按数据条数来算的,但好像一般都是按照token数来算orz(我可能了解不多
charent commented
大模型一般是算token的,我这边没有用代码统计过,估算的你可以参考下:平均200的文本长度 * 900万条数据 * 0.95(假设字符-token压缩率是0.95)=17亿,大概1.7B的token吧。
训练数据的文本统计见:sentence_length.png
StarCycle commented
谢谢!