目标跟踪

这是一篇关于目标跟踪的综述，主要总结现有的常用数据集、目标跟踪算法、资源、研究热点等。

目标跟踪

任务背景：目标跟踪通常指单目标跟踪。跟踪目标由第一帧给定，可由人工标注或检测算法获取。跟踪算法再在后续帧紧跟此目标。

技术特点：第一帧的BBox由检测算法提供或由人工标注
技术难点（吴毅）：

外观变形，光照变化，快速运动和运动模糊，背景相似干扰等

平面外旋转，平面内旋转，尺度变化，遮挡和出视野等情况等

常用数据集

OTB50（OTB-2013），OTB100（OTB-2015）
官方测试代码与序列：Visual Tracker Benchmark

VOT竞赛数据库：VOT2015，VOT2016
VOT挑战赛平台与数据：VOT Challenge | Challenges

OTB和VOT区别：

评价指标不同；
图像素质不同：OTB含25%灰度序列，VOT全彩色序列，VOT序列分辨率更高；
初始方法不同：OTB有随机帧、随机初始化方法；VOT是首帧初始化，每次跟踪失败5帧之后重新初始化；
VOT强调跟踪和检测应该兼并，跟踪过程中会多次初始化tracker；
VOT数据库每年更新，包括重新标注、改变评价指标等。

方法分类

生成（generative）模型方法。典型算法ASMS（125fps）。
判别（discriminative）模型方法。典型算法Struck（20fps）和TLD（28fps）。
深度学习（Deep ConvNet based）类方法。典型算法：MDNet，TCNN，SiamFC，SiamFC-R。
相关滤波（correlation filter）类方法。典型算法：CSK（362fps），KCF（172fps），DCF（292fps），CN（152fps）。

生成模型法

生成模型法用当前帧目标特征建模，在下一帧寻找与模型最相似的区域。主要方法有卡尔曼滤波，粒子滤波，mean-shift等。
生成模型的一个简单例子：从当前帧得知目标区域 80% 是红色、20% 是绿色，则在下一帧搜索寻找最符合这个颜色比例的区域。
ASMS 与 DAT 都是仅颜色特征的算法而且速度很快，分别是 VOT2015 的第 20名和 14 名，在 VOT2016 分别是 32 名和 31 名(中等水平)。
ASMS 是 VOT2015 官方推荐的实时算法，平均帧率125FPS，在经典 mean-shift 框架下加入了尺度估计、经典颜色直方图特征，加入了两个先验(尺度不剧变+可能偏最大)作为正则项，和反向尺度一致性检查。

判别模型法

判别模型法以目标区域为正样本，背景区域为负样本，使用机器学习方法训练分类器，下一帧用训练好的分类器寻找最优区域。
OTB50 中大部分方法都是这一类。

分类器采用机器学习，训练中用到了背景信息，这样分类器就能专注区分前景和背景，所以判别类方法普遍都比生成类好。

比如，训练时 tracker 得知目标 80% 是红色，20% 是绿色，且背景中有橘红色，这样的分类器获得了更多信息，效果也相对更好。

Tracking-by-Detection 和检测算法非常相似。跟踪中为了尺度自适应也需要多尺度遍历搜索，区别仅在于跟踪算法对特征和在线机器学习的速度要求更高，检测范围和尺度更小。

大多数情况检测识别算法复杂度比较高，这时候用复杂度较低的跟踪算法更合适，只需在跟踪失败 (drift) 或一定间隔以后再次检测初始化 tracker 即可。毕竟 FPS 是追踪类算法最重要的指标之一。

Struck 和 TLD 都能实时跟踪，Struck 是 2012 年之前最好的方法，TLD是经典 long-term 的代表。

深度学习方法

深度学习端到端的优势在目标跟踪方向体现不明显，还没和相关滤波类方法拉开差距，普遍面临着速度慢的问题。

另一个需要注意的问题是目标跟踪的数据库都没有严格的训练集和测试集，需要注意训练集与测试集有没有相似序列。直到 VOT2017 官方才指明要限制训练集，不能用相似序列训练模型。

该方法领域值得关注的研究包括但不限于：

Winsty 的系列研究；
VOT2015 的冠军 MDNet；
VOT2016 的冠军 TCNN；
VOT2016 成绩优异的基于 ResNet 的 SiamFC-R；
速度突出的的 SiamFC（80FPS）；
速度更快的 GOTURN（100FPS），牺牲性能换取速度。
（这些方法可以在王强维护的 benchmark_results 中找到）

发展梳理

下面按时间顺序，以相关滤波为重点，梳理目标跟踪近几年的发展脉络。

2012年及之前的工作：

29个顶尖的tracker在OTB100数据集上的表现：
按性能排序：Struck>SCM>ASLA；按速度排序：CSK(362fps)>CT(64fps)>TLD(28)。

2013-2016 相关滤波：

这段时期是相关滤波方法快速发展的时期。

MOSSE ：单通道灰度特征的相关滤波，因使用单通道图片，计算速度极快。
CSK 和 KCF 是牛津大学 Henriques J F 的先后两篇研究成果，对后续研究产生了深远影响。CSK 在 MOSSE 的基础上扩展了密集采样和 kernel-trick ；KCF 在 CSK 的基础上扩展了多通道梯度的 HOG 特征。
林雪平大学 Martin Danelljan 用多通道颜色特征 Color Names (CN) 扩展 CSK 得到了不错的效果，算法简称 CN。

HOG 是梯度特征，CN 是颜色特征，两者常搭配使用。

2014 - 尺度自适应

为解决尺度变化导致的跟踪目标丢失，2014 年前后有学者继续改进，添加了尺度自适应方法。

浙江大学 Yang Li 的工作 SAMF ，在 KCF 的基础上用了 HOG+CN 特征，使用平移滤波器在多尺度缩放的图像块上进行目标检测，取响应最大的平移位置及所在尺度。
Martin Danelljan 的 DSST，使用了 HOG 特征，同时使用了平移滤波和尺度滤波。后续还研究出了加速版本 fDSST。

上述两者有如下区别：

SAMF 有 7 个尺度，DSST 有 33 个尺度；
SAMF 同时优化平移和尺度，DSST 分步优化：先检测最佳平移再检测最佳尺度；
SAMF 只需一个滤波器，每个尺度检测提取一次特征和 FFT，在图像较大时计算量比 DSST 高；
DSST 分步优化可采用不同的方法和特征，需要额外训练一个滤波器，每帧尺度检测需采样 33 个图像块并分别计算特征、加窗、FFT 等，尺度滤波器比平移滤波器慢很多。

2015 - 边界效应

为改善对快速变形和快速运动目标的追踪效果，2015 年前后有学者继续改进，着重解决边界效应(Boundary Effets)问题。

Martin Danelljan 的 SRDCF。忽略了所有移位样本的边界部分像素，限制让边界附近滤波器系数接近 0。速度 167FPS，性能不如 KCF。

Hamed Kiani 的 MOSSE 改进算法，基于灰度特征的 CFLM 和基于 HOG 特征的 BACF，采用较大尺寸检测图像块和较小尺寸滤波器来提高真实样本比例，采用 ADMM 迭代优化。BACF 性能超过 SRDCF，速度 35FPS。

两个解决方案都用更大的检测及更新图像块，训练作用域比较小的相关滤波器。但是 SRDCF 的滤波器系数从中心到边缘平滑过渡到 0，而 CFLM 直接用 0 填充滤波器边缘。

2015-2017 卷积特征

Martin Danelljan 结合深度特征和相关滤波方法取得了很好的效果。

DSST 是 VOT2014 第一名，开创了平移滤波结合尺度滤波的方式。
SRDCF 是 VOT2015 的第四名，优化目标增加了空间约束项。
SRDCFdecon 在 SRDCF 的基础上，改进了样本和学习率问题。
DeepSRDCF 是 VOT2015 第二名，将 HOG 特征替换为 CNN 卷积特征（基于 VGG），效果有了极大提升。论文测试了不同卷积层在目标跟踪任务中的表现，第 1 层表现最好，第 2 和第 5 次之。

Chao Ma 的 HCF，结合多层卷积特征，用了 VGG19 的 Conv5-4, Conv4-4 和 Conv3-4 的激活值作为特征，在VOT2016排在28名。
C-COT 是 VOT2016 第一名，将 DeepSRDCF 的单层卷积的深度特征扩展为多成卷积的深度特征（VGG第 1 和 5 层）。
Martin Danelljan 在 2017CVPR 的 ECO 是 C-COT 的加速版，从模型大小、样本集大小和更新策略三方面加速，CPU上速度 60FPS。

2016-2017 颜色统计特征

2016 年，深度学习方法发挥优势，纯 CNN 方法与结合了深度特征的 CF 方法成绩排列靠前。
VOT2016竞赛主办方公开了部分 tracker 代码和主页。

C-COT 排第一，是结合了多层深度特征的相关滤波；
TCNN 是纯 CNN 方法，VOT2016 的冠军；
纯颜色方法 DAT 和 ASMS 都在中等水平；
Luca Bertinetto 的 SiamFC 和 Staple 都表现不错。

HOG 对快速变形和快速运动效果不好，但对运动模糊及光照变化等情况鲁棒；颜色统计特征对变形、快速运动不敏感，但对光照变化和背景相似颜色效果不佳。这两类方法可以互补，即 DSST 和 DAT 可以互补结合。

Staple 是模板特征方法 DSST 和统计特征方法 DAT 的结合，速度高达 80FPS。
17CVPR 的 CSR-DCF，结合了相关滤波和颜色概率的方法，提出了空域可靠性和通道可靠性，性能直逼 C-COT，速度 13FPS。

参考文献：

Wu Y, Lim J, Yang M H. Online object tracking: A benchmark [C]// CVPR, 2013.
Wu Y, Lim J, Yang M H. Object tracking benchmark [J]. TPAMI, 2015.
Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. CSUR, 2006.
Kristan M, Pflugfelder R, Leonardis A, et al. The visual object tracking vot2013 challenge results [C]// ICCV, 2013.
Kristan M, Pflugfelder R, Leonardis A, et al. The Visual Object Tracking VOT2014 Challenge Results [C]// ECCV, 2014.
Kristan M, Matas J, Leonardis A, et al. The visual object tracking vot2015 challenge results [C]// ICCV, 2015.
Kristan M, Ales L, Jiri M, et al. The Visual Object Tracking VOT2016 Challenge Results [C]// ECCV, 2016.
Vojir T, Noskova J, Matas J. Robust scale-adaptive mean-shift for tracking [J]. Pattern Recognition Letters, 2014.
Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels [J]. IEEE TPAMI, 2016.
Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE TPAMI, 2012.
Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]// CVPR, 2016.
Nam H, Baek M, Han B. Modeling and propagating cnns in a tree structure for visual tracking. arXiv preprint arXiv:1608.07242, 2016.
Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]// ECCV, 2016.
Held D, Thrun S, Savarese S. Learning to track at 100 fps with deep regression networks [C]// ECCV, 2016.
Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR, 2010.
Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by- detection with kernels [C]// ECCV, 2012.
Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE TPAMI, 2015.
Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.
Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration [C]// ECCV, 2014.
Danelljan M, Häger G, Khan F, et al. Accurate scale estimation for robust visual tracking [C]// BMVC, 2014.
Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.
Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for visual tracking [C]// ICCV. 2015.
Kiani Galoogahi H, Sim T, Lucey S. Correlation filters with limited boundaries [C]// CVPR, 2015.
Kiani Galoogahi H, Fagg A, Lucey S. Learning Background-Aware Correlation Filters for Visual Tracking [C]// ICCV, 2017.
Possegger H, Mauthner T, Bischof H. In defense of color-based model-free tracking [C]// CVPR, 2015.
Bertinetto L, Valmadre J, Golodetz S, et al. Staple: Complementary Learners for Real-Time Tracking [C]// CVPR, 2016.
Lukežič A, Vojíř T, Čehovin L, et al. Discriminative Correlation Filter with Channel and Spatial Reliability [C]// CVPR, 2017.
Ma C, Huang J B, Yang X, et al. Hierarchical convolutional features for visual tracking [C]// ICCV, 2015.

LeeWise9/Object-Tracking-Overview

目标跟踪

目标跟踪

常用数据集

OTB和VOT区别：

方法分类

生成模型法

判别模型法

深度学习方法

相关滤波方法

发展梳理

2012年及之前的工作：

2013-2016 相关滤波：

2014 - 尺度自适应

2015 - 边界效应

2015-2017 卷积特征

2016-2017 颜色统计特征

最新进展

孪生网络家族

参考文献：