多轮对话数据构造的时候是否会有上下文不一致的问题

Question

muziyongshixin opened this issue a year ago · 0 comments

您好 readme中提到：
moss-moon-003-sft所使用的多轮对话数据，基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成

请问是将user prompt输入到chatgpt中一轮一轮来增量构造的吗？
那么是否会存在用户在第二轮提的内容在gpt第一轮中没有出现过，比如下面的示例：

user: 给我写一个快排
gpt: code.....
user: 你的代码里面的quicksort函数是什么意思
gpt:对不起我之前的回答里面并没有提到quicksort这个函数

这种情况是不是上下文的语义不太统一，开源的数据里面考虑过这种问题吗？