对比文章和代码后的两个疑问
Closed this issue · 4 comments
34127chi commented
1,mv这个变量对应的特征好像是每个decoder节点的公共特征,在文章里面好像没有提及这个特征
2,基于词频的先验概率求和好像不为1,后面词频的先验概率和模型的概率在平均时也没归一化处理
以上是两个疑问 希望能得到解答 感谢🙏
34127chi commented
针对问题2 自己看懂了 先验概率那边没有求和为1的限定,它是在平均后softmax归一化处理了
34127chi commented
针对问题1 个人理解是文章的向量 它是decoder中每个节点共享的特征
bojone commented
问题1:文章的两幅图都指出了一个重复使用的向量(蓝色方块),就是mv,当然,这是通过maxpool生成的,这方法不唯一;
问题2:先验概率的引入可以有两种方式,一种是各自归一化,然后把概率分布求平均;一种是把softmax之前的结果取平均后才softmax。我对比了,第二种方案容易训练一些。
34127chi commented
感谢🙏 再次确认了下文章 是这样的