end2end-conversational-ai

强化学习的学习目标不是来自监督的label，而是来自reward，而反馈可能不能立即到达，基于任务式的对话要到对话片段结束才知道任务是否完成。这时可以建模action的收益为当前的reward，加上后续的经过一定衰减的收益之和。

上图的模型提出了一种端到端强化学习的方法，在对话管理中联合训练对话状态跟踪和对话策略学习，从而更有力地对系统的动作进行优化。

fancyLv/end2end-conversational-ai