Open-ended dialogue system 有没有好的方法评估生成的应答上下文的通顺和主题契合程度？

Question

Open-ended dialogue system 有没有好的方法评估生成的应答上下文的通顺和主题契合程度？

Closed this issue 2 years ago · 4 comments

如题：

a = ['程序员要掌握哪些技能?',
 '你有什么特殊技能?',
 '我学过Linux。',
 '你在主修什么?',
 '谢邀,我主修数据库',
 '你能告诉我的英语教育吗?',
 '编程,学好英语']

b = ['程序员要掌握哪些技能?', '你有什么特殊技能?', '我在计算机系学习',
'你在主修什么?', '我主修英语', '你能告诉我的英语教育吗?']

上面是 Open-ended dialogue system 的上下文例子，个人感觉a 比b好一些
用第一句话'程序员要掌握哪些技能?'作为对话的主题
有没有好的评估a和b哪一个更好的方法？

Answer 1 · 2022-12-13T07:24:09.000Z

自动化评测的指标可能没有合适的，建议采用人工评测。

Answer 2 · 2022-12-13T07:36:05.000Z

自动化评测的指标可能没有合适的，建议采用人工评测。

我觉得这对于这种类型的对话生成是一个十分重要的东西，对于生成的坏样本的修正可以借助其他生成模型完成，如果能进一步完成新生成的样本与原来的样本的的优劣拣选，则能进一步提升效果。

有没有哪些资料可以参考呢？

通用的通顺模型大多对于token比较多的长文本效果比较好，这种短文本场景有没有比较好的方式呢？

实际问题可以进行分解为，后面的句子关于主题句的相关关系，及后面句子和答案的pair的搭配程度

对这两个维度进行量化，还要嵌入字符串的整洁程度的度量。但感觉可能需要规则来建立度量的联系。

您有没有什么思路呢？

Answer 3 · 2022-12-13T08:50:33.000Z

的确有工作研究利用其它模型对生成结果进行修正，但是我个人认为用处不大，如何自动识别坏样本，如何构造训练数据都是值得深入探索的问题。

感谢你的提问，之后有关于工具包方面的问题和建议，欢迎你的提问。

Answer 4 · 2022-12-13T09:32:51.000Z

的确有工作研究利用其它模型对生成结果进行修正，但是我个人认为用处不大，如何自动识别坏样本，如何构造训练数据都是值得深入探索的问题。

感谢你的提问，之后有关于工具包方面的问题和建议，欢迎你的提问。

确实我感觉识别坏样本是一个很重要的问题。我用翻译的方法的时候感觉到了，常见错误对于对话模型的影响。构造训练数据感觉是一个生成的问题，那生成的检验标准仍然是绕不过去的。把一些知识作为训练数据压入生成模型中，就可以生成，比如我们可以通过问题生成答案，之后对于答案进行“排序”。那么我们就需要“一大堆”关联的问题。但核心仍然是如何判断生成的效果。