资讯详情

[VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking


先贴个baseline的流程图: 在这里插入图片描述


Abstract

:随着多模态传感器的普及,(RGB-T)在温度信息的指导下,目标跟踪将实现稳定的性能和更广泛的应用场景。

:然而,目前缺乏成对训练数据RGB-T跟踪的主要瓶颈。因为收集高质量的产品RGB-T序列非常耗时费力,最近benchmarks只提供测试序列。

  • 构建了一个,包含500 个序列具有 170 1920*1080 帧对。
  • VTUAV数据集考虑了不同场景下的综合应用(短期跟踪、长期跟踪和分割掩码预测)。
  • VTUAV它提供了从粗到细的属性注释,其中帧级属性用于探索特定跟踪器的性能。
  • 设计了

1. Introduction

类别 特点
可见光 可见光提供的信息有限,当目标是黑色/下雨/雾/其他极端条件。
热成像 热成像作为一种补充信息,对光变化不敏感,但在目标和背景温度相似时,很难区分前景/背景。
综合 可见光-热成像(RGB-T)综合数据可以提供互补信息。

RGB-T已有数据集 RGB-T相关工作 缺点
a gray-scale RGB-T(50 videos);RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234) Li: 提出用于学习模态共享和模态特定表示的多适配器网络;Zhang:实时采用属性标注设计RGB-T追踪器;Zhang:将DiMP扩展至RGB-T追踪,在VOT2019-RGBT获得最佳排名 1. 这些数据集包含284个不重复的短期序列,追踪器需要在其他数据集上训练,限制算法的泛化能力;2. 监控设备捕获测试序列,视野/长度/图像质量有限

  • 。此外,该数据集可以评估短期/长期/分割代码预测任务,并在帧和序列级别提供属性注释,以满足特定挑战跟踪器训练的要求。
  • 。在GTOT, RGBT21-, RGBT234, VTUAV不同类型的混合实验都在数据集中进行。

2. Related Work

2.1 RGB-T tracking benchmarks

数据集名称 介绍
OTCBVS 6个序列,7200帧,过时了。
LITIV 2012年,9个视频片段,6300个图像对,过时。
GTOT 2016, grayscale-thermal跟踪数据集,7800帧,测试各种极端条件算法的稳定性
RGBT210 超过104个视频有210个K帧
RGBT234 RGBT210扩展版,234序列
VOT-RGBT 使用2019年60个序列EAO评价算法精度和鲁棒性
LSS 可见或热图像是通过图像转换或视频着色来生成的。
LasHeR 短期视频1224个,730个K帧,多场景多角度

2.2 RGB-T tracking algorithms

混合类型 具体介绍 特点
图像混合 彭等人通过共享异构数据的权重,利用一组层来学习互补信息。 能够提供多模态共享表达,高度依赖图像对齐,尚未完全探索
特征混合 包括两类:模态交互和直接混合。在另一种指导下,模态交互细化了单模态的特征,然后结合了两种模态的特征,实现了综合表达;直接混合首先结合多模态特征,然后直接分级/注意力技术获得混合特征 更高的灵活性,可以通过大量不成对的数据进行训练,易于设计,性能显著提高。
决策混合 独立建模每个模态。JMMAC通过考虑模态级和像素级的重要性,采用多模态集成网络集成响应。 罗使用独立框架RGB-T跟踪数据,然后自适应加权组合结果。 避免不同模态的异质性,对模态配置不敏感

3. VTUAV Benchmark

3.1 Benchmark Features and Statistics

  • Large-scale sequences with high diversity 500个序列with 1664549个RGB-T图像对,图像分辨率:1920x1080,250序列训练集(207短时 43个长时) 250个序列的测试集(176个短时 74个长时)。 【注】:将20帧以上的目标离开视野定义为长期跟踪。

VTUAV与其他数据集的比较如下图所示:

  • Generic object and scene category 体现VTUAV数据集场景及目标多样性(5个超类,13个子类,2个城市15个场景,白天325个序列 晚上175个统计图如下:
  • Hierarchical attributes 有序列级别和帧级别标记。共13个属性。介绍如下:
  • Alignment

VTUAV对齐每个视频的初始帧,并将其应用于所有帧。 注意到大多数帧都有很好的对齐。

3.2 High-quality Annotation

  • Bounding boxes 每隔10帧标记稀疏的目标。通过注释密集的边界框SOTA获得跟踪算法。共标记326961高质量边界框。
  • Segmentation masks
  • Attribute annotations 提供帧级别的属性标记。301678帧,430960属性标记,500*1个序列级别的注释。

3.3 Evaluation Metrics

以OPE方式运行,评价指标:maximum success rate (MSR,IoU大于一定阈值的帧的占比) and maximum precision rate (MPR,中心距离小于阈值的帧的占比)。

4. Hierarchical Multi-modal Fusion Tracker

包含3种层次的混合(CIF图像混合,DFF特征混合,ADF决策混合)

  • CIF:致力于学习两个模态间的共享模式;
  • DFF:引入异构表示的通道组合;
  • ADF:考虑判别和互补分类器的响应来提供最终目标候选者。

5. Experimental Analysis for RGB-T Tracking

5.1 Short-term Evaluation

5.2 Long-term Evaluation

HMFT_LT:是HMLT的变体,HMLT作为局部追踪器(目标在视野中),将GlobalTrack作为全局追踪器(目标离开视野),RTMDNet作为tracker switcher。

5.3 Ablation Study

5.4 Qualitative Analysis

6. Experimental Results on VTUAV-V Subset

VTUAV-V是VTUAV的子集,只包含可见光的图像。

6.1 Short-term Evaluation

6.2 Long-term Evaluation

标签: 104k400vcbb电容uav传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台