关于cifar10dvs的vgg模型训练问题
Opened this issue · 5 comments
liufh1 commented
您好,您的工作十分有趣,我在试图复现您的程序。
我在配置好依赖以及使用move_data.py文件与处理好数据后,运行
python train_vgg.py -b 32 --epochs 200 -method PSN -TET -T 10
命令。
发现在每个batch中,输出的mean_out值是一样的。
并且训练后的正确率是10%左右。
请问是我的操作在哪里有问题吗,您那里是否会显示这样的特性呢。
谢谢!
fangwei123456 commented
这里有原始的日志:
你显示正确率10%相当于网络完全没得到训练,可能哪里配置出问题了。如果用的就是原始代码不做任何改动,那可能是数据集处理部分的问题
gitxdf commented
fangwei123456 commented
用的是原始训练参数吗
gitxdf commented
参数是用的原始的参数,不过我加入了自己的模块。
还有就是同样的网络,我换个随机种子,有的就变好了可以跑完,不会掉下来,有的还依然会掉下来。
另外,在cifar10 上做了一些实验,这种情况只出现一次,出问题的频率远低于cifar10dvs。
其他的数据集上没有出现这种问题。
想过很多原因,我个人目前猜测的原因,很可能是由于数据集太小了,导致训练参数时候出现问题?
fangwei123456 commented
cifar10dvs可能更难一些。训练崩溃一般是BN层的除法导致出现inf所致