RUCAIBox/TextBox

Open-ended dialogue system 有没有好的方法评估生成的应答上下文的通顺和主题契合程度?

Closed this issue · 4 comments

如题:

a = ['程序员要掌握哪些技能?',
 '你有什么特殊技能?',
 '我学过Linux。',
 '你在主修什么?',
 '谢邀,我主修数据库',
 '你能告诉我的英语教育吗?',
 '编程,学好英语']

b = ['程序员要掌握哪些技能?', '你有什么特殊技能?', '我在计算机系学习',
'你在主修什么?', '我主修英语', '你能告诉我的英语教育吗?']

上面是 Open-ended dialogue system 的上下文例子,个人感觉a 比b好一些
用第一句话'程序员要掌握哪些技能?'作为对话的主题
有没有好的评估a和b哪一个更好的方法?

自动化评测的指标可能没有合适的,建议采用人工评测。

自动化评测的指标可能没有合适的,建议采用人工评测。

我觉得这对于这种类型的对话生成是一个十分重要的东西,对于生成的坏样本的修正可以借助其他生成模型完成,如果能进一步完成新生成的样本与原来的样本的的优劣拣选,则能进一步提升效果。

有没有哪些资料可以参考呢?

通用的通顺模型大多对于token比较多的长文本效果比较好,这种短文本场景有没有比较好的方式呢?

实际问题可以进行分解为,后面的句子关于主题句的相关关系,及后面句子和答案的pair的搭配程度

对这两个维度进行量化,还要嵌入字符串的整洁程度的度量。但感觉可能需要规则来建立度量的联系。

您有没有什么思路呢?

的确有工作研究利用其它模型对生成结果进行修正,但是我个人认为用处不大,如何自动识别坏样本,如何构造训练数据都是值得深入探索的问题。

感谢你的提问,之后有关于工具包方面的问题和建议,欢迎你的提问。

的确有工作研究利用其它模型对生成结果进行修正,但是我个人认为用处不大,如何自动识别坏样本,如何构造训练数据都是值得深入探索的问题。

感谢你的提问,之后有关于工具包方面的问题和建议,欢迎你的提问。

确实 我感觉识别坏样本 是一个很重要的问题。我用翻译的方法的时候感觉到了,常见错误对于对话模型的影响。构造训练数据感觉是一个生成的问题,那生成的检验标准仍然是绕不过去的。把一些知识作为训练数据压入生成模型中,就可以生成,比如 我们可以通过问题生成答案,之后对于答案进行“排序”。那么我们就需要“一大堆”关联的问题。但核心仍然是如何判断生成的效果。