HugAILab/HugNLP

无法找到知识增强预训练的数据

Opened this issue · 2 comments

nuoma commented

你好,我无法找到文件: data_path=/wjn/nlp_task_datasets/kg-pre-trained-corpus/total_pretrain_kgicl_gpt,感觉看的有点模糊,麻烦指个路,谢谢!

您好,这个数据对应的工作还在投中,所以暂未开源。数据格式本质上和gpt的训练语料一样。

nuoma commented

是指预训练阶段的语料(wudao,pile),一堆txt文件,每个文件里每行就是一句话这种吗?