Morizeyao/GPT2-Chinese

master分支,能否提供一下train.json的样例

moo611 opened this issue · 4 comments

“该文件的结构是:每行一个json字符串。” 这句话没看懂

已经加上去了

["第一篇文章的正文", "第二篇文章的正文", "第三篇文章的正文"]
也就是文章的正文,不需要任何的处理?例如:
谢丰荣
“听人介绍,你们这儿有一家疼痛银行?”
“你看不见那块大大的招牌吗?”小姐居然很傲慢。这也难怪,全世界只此一家,别无分店。
他试探着问:“听说你们可以将疼痛转移?”
“疼痛银行有两种主要业务:第一种,你可以将疼痛储蓄起来,像存款一样,然后在你认为最合适的时候取走,零存整取、整存零取都行,当然你会为此付出一大笔费用,而且你必须在生前全部取走,否则会强制你的亲人承担;第二种,你可以将你的疼痛像转账一样转移给另一个人,前提是他乐意接受。”小姐像背台词一样滔滔不绝地介绍起来。

这种就可以了?

我也不太明白这个json文件具体长什么样子?能否提供一个?

实际上这个项目的训练目标是输入一段文本,然后在此文本上进行续写,而非 input, output 模式的对应(其实这个和实际需求有较大的出入,大部分人的需求是类似于对话模式的 input 和 output),所以才会在数据集的格式上产生疑问