Clouditera/SecGPT

咨询一下预训练数据集中论文的部分

chenryn opened this issue · 1 comments

看到数据集类型统计中,论文占了 51%。
比较好奇,有两个问题不知道作者能否解答:

  1. 和普通网页、书籍类的知识相比,论文这种形式的数据,不同比例影响大么?
  2. 是否有论文的收集清洗方案可以开源出来,复用于其他类似领域?
    多谢。

主要是论文好收集,其他维度的数据收集总量不及论文,关于问题

  1. 论文不是全部训练,按照比例缩减数量进行训练的
  2. 开源暂不确定