ZichaoHuang/TransE

是否存在内存泄露的问题?在每次eval时内存会增加

Closed this issue · 7 comments

clpl commented

使用原始的train_wn18.sh训练时,每次eval时内存都会增加800MB左右的大小,是发生了内存泄露吗?
如果将eval_freq调小,应该可以显著观察到

环境是ubuntu18.04+tensorflow 1.13.0-rc0

我使用了tracemalloc观察内存,但没有发现异常之处

用的是CPU版本的tf吗?

clpl commented

是GPU版本的,我又试着在CPU版本上跑了一下,也有这个问题

按照我的理解,初始化后程序的内存使用量应该会保持稳定,可是似乎每次eval都会增加

有可能是多进程导致的,我有时间看看。不过我没在1.13版本的tf上测试过,也不排除是tf的问题。

@clpl 我这边跑了一下train_wn18.sh,eval_freq设置为2。eval时占用的物理内存确实会比训练时要大,但是eval一次之后,程序占用的物理内存就一直稳定在1907M了,并没有出现你所描述的内存会增加的情况。

环境是Ubuntu 16.04.4 + tensorflow-gpu 1.8.0

clpl commented

我也重跑了一下,还是会增加,而且是指数型增长的,可能就是tf的问题

tensorflow 1.13.0-rc0 GPU版

@clpl 我在tensorflow-gpu 1.12版本下也测试过,自首次eval后,物理内存占用都稳定在2039M,没有出现内存持续增长的情况。

这个issue我先关了,有其他进展再重新开。