charent/ChatLM-mini-Chinese

请问这些预训练数据加起来有多少token呀

StarCycle opened this issue · 2 comments

请问这些预训练数据加起来有多少token呀,现在是按数据条数来算的,但好像一般都是按照token数来算orz(我可能了解不多

大模型一般是算token的,我这边没有用代码统计过,估算的你可以参考下:平均200的文本长度 * 900万条数据 * 0.95(假设字符-token压缩率是0.95)=17亿,大概1.7B的token吧。
训练数据的文本统计见:sentence_length.png

谢谢!