我是研一小硕在读,如果理解和阐述有偏差,欢迎您批评指正!!
这是
Long-term Recurrent Convolutional Networks for Visual Recognition and Description_2015_CVPR_paper
在mxnet/Gluon上的复现。
本代码运行需要用到d2lzh工具包,下载后和这个项目文件夹放置在同一个目录下。d2lzh包来源于李沐、阿斯顿张的《动手学深度学习》:https://zh.d2l.ai/,
(但我对于此工具包进行了魔改部分修改,参见账号下的d2lzh-yangyyyy仓库)
论文分为三个部分,计划依次实现:
- [x]Activity(action) recognition
- []Image description
- []Video description
论文使用ALEXNet+单层LSTM实现,将视频数据集的depth看作时间步, 每个时间步都将单帧图像输入CNN提取特征, 后接全连接层,输入LSTM,将各时间步LSTM的输出取平均。
论文中使用UCF101数据集,UCF101数据集的使用方法参考:https://gluon-cv.mxnet.io/build/examples_datasets/ucf101.html ,写的很明了。
gluoncv是mxnet官方推出的a Deep Learning Toolkit for Computer Vision。
目前代码存在严重过拟合,正在寻求改进。