R(2+1)D的结果用的是具体多少层的呀
Xiaolong-han opened this issue · 8 comments
Xiaolong-han commented
我看代码里有r(2+1) 18,但是这个识别率是18的吗?有点疑惑。
0aqz0 commented
对的
Xiaolong-han commented
谢谢解答。但是我看r(2+1)d18比3dresnet101在CSL500的识别率高那么多,有点疑惑,您认为什么原因呢?是参数少更好训吗?
0aqz0 commented
分解3d卷积更容易优化,同时增加了非线性度,有更强的表示能力。
具体可以参考一下A Closer Look at Spatiotemporal Convolutions for Action Recognition这篇论文。
Xiaolong-han commented
确实,我只是觉得18层就效果这么好有点惊讶,哈哈。那个代码里用的pretrain_model_url那几个坚果云链接好像失效了,问一下预训练模型你用的哪里的,是那个3dresnet-pytorch(论文Can spacial temperal retrace.....)作者的吗?不是的话可否分享一下,谢谢啦
0aqz0 commented
是原论文的预训练模型,我为了方便下载转存到坚果云了hhh
你可以试试把image_size从128换成224,这样差距会小很多
我一开始为了节省训练时间就只用了128,换成224后我试过在CSL500上resnet3d也可以达到90%以上准确率
Xiaolong-han commented
OK,谢谢哈
0aqz0 commented
哈哈哈不用客气
Peichenxin commented
你好,可以分享一下预训练模型吗,坚果云的链接失效了