先贴个baseline的流程图:
Abstract
:随着多模态传感器的普及,(RGB-T)在温度信息的指导下,目标跟踪将实现稳定的性能和更广泛的应用场景。
:然而,目前缺乏成对训练数据RGB-T跟踪的主要瓶颈。因为收集高质量的产品RGB-T序列非常耗时费力,最近benchmarks只提供测试序列。
:
- 构建了一个,包含500 个序列具有 170 1920*1080 帧对。
- VTUAV数据集考虑了不同场景下的综合应用(短期跟踪、长期跟踪和分割掩码预测)。
- VTUAV它提供了从粗到细的属性注释,其中帧级属性用于探索特定跟踪器的性能。
- 设计了。
1. Introduction
:
类别 | 特点 |
---|---|
可见光 | 可见光提供的信息有限,当目标是黑色/下雨/雾/其他极端条件。 |
热成像 | 热成像作为一种补充信息,对光变化不敏感,但在目标和背景温度相似时,很难区分前景/背景。 |
综合 | 可见光-热成像(RGB-T)综合数据可以提供互补信息。 |
:
RGB-T已有数据集 | RGB-T相关工作 | 缺点 |
---|---|---|
a gray-scale RGB-T(50 videos);RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234) | Li: 提出用于学习模态共享和模态特定表示的多适配器网络;Zhang:实时采用属性标注设计RGB-T追踪器;Zhang:将DiMP扩展至RGB-T追踪,在VOT2019-RGBT获得最佳排名 | 1. 这些数据集包含284个不重复的短期序列,追踪器需要在其他数据集上训练,限制算法的泛化能力;2. 监控设备捕获测试序列,视野/长度/图像质量有限 |
:
- 。此外,该数据集可以评估短期/长期/分割代码预测任务,并在帧和序列级别提供属性注释,以满足特定挑战跟踪器训练的要求。
- 。在GTOT, RGBT21-, RGBT234, VTUAV不同类型的混合实验都在数据集中进行。
2. Related Work
2.1 RGB-T tracking benchmarks
数据集名称 | 介绍 |
---|---|
OTCBVS | 6个序列,7200帧,过时了。 |
LITIV | 2012年,9个视频片段,6300个图像对,过时。 |
GTOT | 2016, grayscale-thermal跟踪数据集,7800帧,测试各种极端条件算法的稳定性 |
RGBT210 | 超过104个视频有210个K帧 |
RGBT234 | RGBT210扩展版,234序列 |
VOT-RGBT | 使用2019年60个序列EAO评价算法精度和鲁棒性 |
LSS | 可见或热图像是通过图像转换或视频着色来生成的。 |
LasHeR | 短期视频1224个,730个K帧,多场景多角度 |
2.2 RGB-T tracking algorithms
混合类型 | 具体介绍 | 特点 |
---|---|---|
图像混合 | 彭等人通过共享异构数据的权重,利用一组层来学习互补信息。 | 能够提供多模态共享表达,高度依赖图像对齐,尚未完全探索 |
特征混合 | 包括两类:模态交互和直接混合。在另一种指导下,模态交互细化了单模态的特征,然后结合了两种模态的特征,实现了综合表达;直接混合首先结合多模态特征,然后直接分级/注意力技术获得混合特征 | 更高的灵活性,可以通过大量不成对的数据进行训练,易于设计,性能显著提高。 |
决策混合 | 独立建模每个模态。JMMAC通过考虑模态级和像素级的重要性,采用多模态集成网络集成响应。 罗使用独立框架RGB-T跟踪数据,然后自适应加权组合结果。 | 避免不同模态的异质性,对模态配置不敏感 |
3. VTUAV Benchmark
3.1 Benchmark Features and Statistics
- Large-scale sequences with high diversity 500个序列with 1664549个RGB-T图像对,图像分辨率:1920x1080,250序列训练集(207短时 43个长时) 250个序列的测试集(176个短时 74个长时)。 【注】:将20帧以上的目标离开视野定义为长期跟踪。
VTUAV与其他数据集的比较如下图所示:
- Generic object and scene category 体现VTUAV数据集场景及目标多样性(5个超类,13个子类,2个城市15个场景,白天325个序列 晚上175个统计图如下:
- Hierarchical attributes 有序列级别和帧级别标记。共13个属性。介绍如下:
- Alignment
VTUAV对齐每个视频的初始帧,并将其应用于所有帧。 注意到大多数帧都有很好的对齐。
3.2 High-quality Annotation
- Bounding boxes 每隔10帧标记稀疏的目标。通过注释密集的边界框SOTA获得跟踪算法。共标记326961高质量边界框。
- Segmentation masks
- Attribute annotations 提供帧级别的属性标记。301678帧,430960属性标记,500*1个序列级别的注释。
3.3 Evaluation Metrics
以OPE方式运行,评价指标:maximum success rate (MSR,IoU大于一定阈值的帧的占比) and maximum precision rate (MPR,中心距离小于阈值的帧的占比)。
4. Hierarchical Multi-modal Fusion Tracker
包含3种层次的混合(CIF图像混合,DFF特征混合,ADF决策混合)
- CIF:致力于学习两个模态间的共享模式;
- DFF:引入异构表示的通道组合;
- ADF:考虑判别和互补分类器的响应来提供最终目标候选者。
5. Experimental Analysis for RGB-T Tracking
5.1 Short-term Evaluation
5.2 Long-term Evaluation
HMFT_LT:是HMLT的变体,HMLT作为局部追踪器(目标在视野中),将GlobalTrack作为全局追踪器(目标离开视野),RTMDNet作为tracker switcher。
5.3 Ablation Study
5.4 Qualitative Analysis
6. Experimental Results on VTUAV-V Subset
VTUAV-V是VTUAV的子集,只包含可见光的图像。