关于数据集的一些问题

Question

关于数据集的一些问题

peterwan1 opened this issue a year ago · 3 comments

①跑sent-roberta还有detectgpt时候需要把篇章处理成单独的句子，这里是直接用nltk断句就可以吗；然后bench数据集中AI-human分界点都是完整句子结尾处吗，不知道有没有一个句子中既有AI又有human的情况
②bench的en_human数据集没有prompt_len这个键，是不是gen_features的时候可以加一句prompt_len = len（line）呀，因为训练的时候是把这些数据都混合起来了，但是在dataloader中没有看到区分human和其他数据的地方，不带prompt_len训练的时候是不是会有问题
感谢！

Answer 1 · 2024-03-10T12:37:25.000Z

问题1：是的，用nltk的断句就可以啦。截取human部分的句子时用的就是这个包，所以一定是完整的句子作为分界的。
问题2：是的~你说的没有任何问题！

Answer 2 · 2024-03-10T12:51:50.000Z

好的，谢谢！

Answer 3 · 2024-03-11T00:54:04.000Z

不客气~