关于数据集的一些问题
peterwan1 opened this issue · 3 comments
peterwan1 commented
①跑sent-roberta还有detectgpt时候需要把篇章处理成单独的句子,这里是直接用nltk断句就可以吗;然后bench数据集中AI-human分界点都是完整句子结尾处吗,不知道有没有一个句子中既有AI又有human的情况
②bench的en_human数据集没有prompt_len这个键,是不是gen_features的时候可以加一句prompt_len = len(line)呀,因为训练的时候是把这些数据都混合起来了,但是在dataloader中没有看到区分human和其他数据的地方,不带prompt_len训练的时候是不是会有问题
感谢!
Jihuai-wpy commented
问题1:是的,用nltk的断句就可以啦。截取human部分的句子时用的就是这个包,所以一定是完整的句子作为分界的。
问题2:是的~你说的没有任何问题!
peterwan1 commented
好的,谢谢!
Jihuai-wpy commented
不客气~