charent/ChatLM-mini-Chinese

训练集与微调集数据重叠

Opened this issue · 0 comments

1.Belle的数据集命名有点不清楚:在README的预训练部分提到使用Belle的train_2M_CN.json数据集,并且README里面处理微调数据时也用到了这个数据集,而且Belle的仓库里也只看到了train_2M_CN。但是微调的数据处理代码里写的是train_conv_2.json(utils/raw_data_process.py line 1107),这两个地方确定是一样的数据集吗?
image

2.README里提到预训练用了一个Train_3.5M_CN.json数据集,但是在代码中,变成了一个找不到出处的'/data/raw_data/bell_open_source/train_0.8M_CN.json'(utils/raw_data_process.py line 505)

感谢解答~