对比文章和代码后的两个疑问

Question

Closed this issue 6 years ago · 4 comments

1，mv这个变量对应的特征好像是每个decoder节点的公共特征，在文章里面好像没有提及这个特征
2，基于词频的先验概率求和好像不为1，后面词频的先验概率和模型的概率在平均时也没归一化处理

以上是两个疑问希望能得到解答感谢🙏

Answer 1 · 2018-09-07T05:59:23.000Z

针对问题2 自己看懂了先验概率那边没有求和为1的限定，它是在平均后softmax归一化处理了

Answer 2 · 2018-09-07T06:27:14.000Z

针对问题1 个人理解是文章的向量它是decoder中每个节点共享的特征

Answer 3 · 2018-09-07T06:32:04.000Z

问题1：文章的两幅图都指出了一个重复使用的向量（蓝色方块），就是mv，当然，这是通过maxpool生成的，这方法不唯一；

问题2：先验概率的引入可以有两种方式，一种是各自归一化，然后把概率分布求平均；一种是把softmax之前的结果取平均后才softmax。我对比了，第二种方案容易训练一些。

Answer 4 · 2018-09-07T06:45:37.000Z

感谢🙏 再次确认了下文章是这样的