THUDM/ComiRec

关于loss的问题

yuanninesuns opened this issue · 4 comments

作者您好,我看您的代码,在多向量建模部分,在训练的时候,user_eb是先和item_eb做了交互之后(即做了attention),再和mid_batch_ph,也就是next item做交叉熵loss,这样子不会泄漏信息吗?

也就是说,在与next item做loss前就已经和next item做过交互了,通过next item来确定多向量的权重,再和next item做loss,这样做感觉不是很合理?

而在GRU的部分,user_eb的获取就完全和item_eb无关,我认为这是一种合理的设置。还望您答疑解惑,多谢

你好,我认为label-aware attention仅仅是模型学习的一种方法,并没有什么不合理

@yuanninesuns 据我所知,这种训练方式确实有问题,就像MIND一样有信息泄露,使得训练不difficult。所以今年出了篇论文(User-Aware Multi-Interest Learning for Candidate Matching in Recommenders)
https://dl.acm.org/doi/abs/10.1145/3477495.3532073,改进了这个问题,方法是要泄露大家都泄露,不只是target泄露!