你好，请教nan的问题

Question

你好，请教nan的问题

keaideii opened this issue 5 years ago · 6 comments

你好，感谢分享代码！想请教下，我们有几个任务进行多任务学习，在用这套框架一起训练时候，会报nan错误，但是单独训练时候都没有问题。不知道你可否知道可能哪里出现了问题？（看代码里面有注释说 # WARNING: Potential nan created here! # TODO: Fix this.）谢谢！

Answer 1 · 2019-08-21T13:05:30.000Z

请问单独训练的时候也是用这个框架训练的吗？我在混合训练seq2seq任务和其他任务的时候遇到了nan问题，你的任务类型也是包含seq2seq吗？

Answer 2 · 2019-08-22T02:36:07.000Z

你好，单独训练也是用的这个框架。不包含seq2seq，是多个cls的任务。

Answer 3 · 2019-08-22T02:54:19.000Z

我好像没有遇到过这个情况, 一般来说, 比较常见的nan产生原因有: 学习率过大, 通常会表现为损失上升然后变nan; 设置的类别数小于实际类别数, 那么遇到超过设置类别数的类别就会产生nan.

那个warning那里应该是在seq2seq任务中, 如果没有抽样到该seq2seq任务的话, 其损失为nan. 但是cls任务应该是不会的.

Answer 4 · 2019-08-22T06:30:13.000Z

感谢！初步定位到top_utils.py，tf.reduce_mean(batch_loss*loss_multiplier)，传入reduce_mean的tensor为空，导致了nan，暂时先把这里的tensor做个判断，为空时传[0]。因为临时帮同事处理nan，还没仔细去读您的代码，感谢分享这么好的项目，随后再学习下！

Answer 5 · 2019-08-22T07:06:21.000Z

好的, 如果你发现了问题根源或者觉得这个一个好的解决方法, 欢迎提个pr!

单纯的检测到nan传0可能会掩盖学习率过大的问题, 但是如果同时检测到batch_loss第一个维度为0的话, 感觉这个解决方案是可以的.

Answer 6 · 2019-08-22T07:19:42.000Z

嗯，我也是想在找下这个问题的根源，找到再与您交流！