关于loss的问题

Question

yuanninesuns opened this issue 2 years ago · 4 comments

作者您好，我看您的代码，在多向量建模部分，在训练的时候，user_eb是先和item_eb做了交互之后（即做了attention），再和mid_batch_ph，也就是next item做交叉熵loss，这样子不会泄漏信息吗？

也就是说，在与next item做loss前就已经和next item做过交互了，通过next item来确定多向量的权重，再和next item做loss，这样做感觉不是很合理？

Answer 1 · 2022-01-23T09:09:29.000Z

而在GRU的部分，user_eb的获取就完全和item_eb无关，我认为这是一种合理的设置。还望您答疑解惑，多谢

Answer 2 · 2022-03-08T08:58:24.000Z

你好，我认为label-aware attention仅仅是模型学习的一种方法，并没有什么不合理

Answer 3 · 2022-03-08T08:58:43.000Z

您好！您的邮件已收到，我会尽快查看！祝好

Answer 4 · 2023-01-13T02:25:11.000Z

@yuanninesuns 据我所知，这种训练方式确实有问题，就像MIND一样有信息泄露，使得训练不difficult。所以今年出了篇论文（User-Aware Multi-Interest Learning for Candidate Matching in Recommenders）
https://dl.acm.org/doi/abs/10.1145/3477495.3532073，改进了这个问题，方法是要泄露大家都泄露，不只是target泄露！