先贴个baseline的流程图：在这里插入图片描述

Abstract

背景：随着多模态传感器的普及，可见光-热成像（RGB-T）在温度信息的指导下，目标跟踪将实现稳定的性能和更广泛的应用场景。

科学问题：然而，目前缺乏成对训练数据RGB-T跟踪的主要瓶颈。因为收集高质量的产品RGB-T序列非常耗时费力，最近benchmarks只提供测试序列。

本文：

1. Introduction

可见光和热成像的优缺点：

类别	特点
可见光	可见光提供的信息有限，当目标是黑色/下雨/雾/其他极端条件。
热成像	热成像作为一种补充信息，对光变化不敏感，但在目标和背景温度相似时，很难区分前景/背景。
综合	可见光-热成像(RGB-T)综合数据可以提供互补信息。

RGB-T现有数据集及相关工作：

RGB-T已有数据集	RGB-T相关工作	缺点
a gray-scale RGB-T(50 videos)；RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234)	Li: 提出用于学习模态共享和模态特定表示的多适配器网络；Zhang：实时采用属性标注设计RGB-T追踪器；Zhang：将DiMP扩展至RGB-T追踪，在VOT2019-RGBT获得最佳排名	1. 这些数据集包含284个不重复的短期序列，追踪器需要在其他数据集上训练，限制算法的泛化能力；2. 监控设备捕获测试序列，视野/长度/图像质量有限

本文贡献：

创建高质量的可见光-热成像大规模跟踪数据集VTUAV。此外，该数据集可以评估短期/长期/分割代码预测任务，并在帧和序列级别提供属性注释，以满足特定挑战跟踪器训练的要求。
提出RGB-T的baseline——HMFT，它统一了不同模式的混合策略(图像混合、特征混合、决策混合)。在GTOT, RGBT21-, RGBT234, VTUAV不同类型的混合实验都在数据集中进行。

数据集名称	介绍
OTCBVS	6个序列，7200帧，过时了。
LITIV	2012年，9个视频片段，6300个图像对，过时。
GTOT	2016， grayscale-thermal跟踪数据集，7800帧，测试各种极端条件算法的稳定性
RGBT210	超过104个视频有210个K帧
RGBT234	RGBT210扩展版，234序列
VOT-RGBT	使用2019年60个序列EAO评价算法精度和鲁棒性
LSS	可见或热图像是通过图像转换或视频着色来生成的。
LasHeR	短期视频1224个，730个K帧，多场景多角度

混合类型	具体介绍	特点
图像混合	彭等人通过共享异构数据的权重，利用一组层来学习互补信息。	能够提供多模态共享表达，高度依赖图像对齐，尚未完全探索
特征混合	包括两类：模态交互和直接混合。在另一种指导下，模态交互细化了单模态的特征，然后结合了两种模态的特征，实现了综合表达；直接混合首先结合多模态特征，然后直接分级/注意力技术获得混合特征	更高的灵活性，可以通过大量不成对的数据进行训练，易于设计，性能显著提高。
决策混合	独立建模每个模态。JMMAC通过考虑模态级和像素级的重要性，采用多模态集成网络集成响应。罗使用独立框架RGB-T跟踪数据，然后自适应加权组合结果。	避免不同模态的异质性，对模态配置不敏感

Large-scale sequences with high diversity 500个序列with 1664549个RGB-T图像对，图像分辨率：1920x1080，250序列训练集(207短时 43个长时） 250个序列的测试集(176个短时 74个长时）。【注】:将20帧以上的目标离开视野定义为长期跟踪。

VTUAV与其他数据集的比较如下图所示：

Generic object and scene category 体现VTUAV数据集场景及目标多样性(5个超类，13个子类，2个城市15个场景，白天325个序列晚上175个统计图如下：
Hierarchical attributes 有序列级别和帧级别标记。共13个属性。介绍如下：
Alignment

VTUAV对齐每个视频的初始帧，并将其应用于所有帧。注意到大多数帧都有很好的对齐。