点击下方,关注“”公众号
AI/CV重磅干货,第一时间送达
转载自:集智书童

BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文:https://arxiv.org/abs/2206.14651
代码:https://github.com/NirAharon/BOT-SORT
多目标跟踪 (
MOT) 目标是检测和跟踪场景中的所有目标,并为每个目标保留一个唯一的标识符。本文提出了一种结合运动和外观信息、相机运动补偿和更准确的卡尔曼滤波器状态向量的新型鲁棒跟踪器。新的跟踪器BoT-SORT和BoT-SORT-ReID在MOT17和MOT20测试集的MOTChallenge数据集中排名第一,所有主要数据MOT指标而言:MOTA、IDF1和HOTA。对于MOT17:实现了 80.5% MOTA、80.2% IDF1 和 65.0% HOTA。
1简介
多目标跟踪 (MOT) 目的是检测和估计视频流中多个目标的时空轨迹。MOT 自动驾驶、视频监控等是许多应用程序的基本问题。
目前,Tracking-by-detection成为 MOT 任务中最有效的范式。Tracking-by-detection包括一个步骤检测步骤,然后是一个跟踪步骤。跟踪步骤通常由两个主要部分组成:
用于预测后续帧中轨迹的边界框的运动模型和状态估计。
卡尔曼滤波器(KF) 是这项任务的主流选择。将新帧检测与当前轨迹集相关联。
步骤2:处理相关任务的主要方法有两种:
目标定位主要是预测轨迹边界框与检测边界框之间的轨迹边界框IoU。
目标的外观模型和解决方案Re-ID任务。
这两种方法都被量化为距离,并将相关任务作为整体分配问题来解决。
最近的许多Tracking-by-detection基于正确的工作 SORT、DeepSORT 和 JDE 研究方法。作者意识到了这一点SORT-like下面将描述算法的局限性。
大多数SORT-like算法采用卡尔曼滤波器和恒速模型假设是运动模型。KF 用于预测下一帧 tracklet 边界框与检测边界框相关,用于在屏蔽或未检测的情况下预测 tracklet 状态。
与目标检测器驱动的检测相比,使用 KF 状态估计,作为跟踪器的输出将导致边界框形状次优。最近的大多数方法都使用了经典的跟踪器 DeepSORT 中提出的 KF 状态表征,试图估计框架的纵横比而不是宽度,导致宽度估计不准确。
SORT-like IoU-based 方法主要取决于 tracklet 预测边界框的质量。因此,在许多复杂的场景中,由于相机运动,预测边界框的正确位置可能会失败,导致两个相关边界框之间的重叠率较低,最终导致跟踪器性能较低。作者利用传统的图像配置来估计相机的运动,并通过适当地校正卡尔曼滤波器来克服这个问题。这就是所谓的相机运动补偿(CMC)。
在许多情况下,SORT-like 算法中的定位和外观信息(即重识别)会导致跟踪器的检测能力 (MOTA) 跟踪器随时保持正确身份的能力 (IDF1) 权衡 IoU 通常更好 MOTA,而 Re-ID 更高的可以实现 IDF1。
在这项工作中,我们通过解决上述问题,提出了新的跟踪器 SORT-like 限制和集成跟踪器 ByteTrack 新的跟踪器在中 MOT17 和 MOT20 所有主要挑战 MOT 指标(图 1)比所有领先的跟踪器都好。
工作的主要贡献可总结如下:
? 通过添加改进,如基于相机运动补偿的特性跟踪器和适当的卡尔曼滤波器状态向量,实现更好的边界定位,Tracking-by-detection也可以显著提高跟踪器的性能。
? 为 IoU 和 ReID 的余弦距离为了在检测和轨迹之间建立更强的联系,提出了一种简单有效的方法。
2BoT-SORT
本文介绍了基于多目标跟踪的部分Tracking-by-detection方法的三个主要修改和改进。通过将它们集成到名字中 ByteTrack 作者展示了两个新的最先进的跟踪器,BoT-SORT 和 BoT-SORT-ReID。BoT-SORT-ReID 是包含ReID模块的 BoT-SORT 扩展。算法的过程如图所示 2 所示。
2.1 Kalman Filter
离散卡尔曼滤波器通常用于建模图像平面中的物体运动。 SORT 状态向量为7元组,
402 Payment Required
,其中 是图像平面目标中心的二维坐标。s边界框比(面积),a 是边界框的纵横比。在最近的跟踪器中,状态向量变为8元组, 。然而,通过实验,作者发现直接估计边界框的宽度和高度可以获得更好的性能。因此,作者的选择 KF 状态向量定义为 Eq(1)和方程(2)等测量向量。 SORT 所选测量 Q、R 与时间无关,所以在 DeepSORT 也建议选择 Q、R 测量函数作为一些估计元素和一些测量元素。因此,使用 Q 和 R 这种选择与时间有关 和 相关 KF 状态向量后,过程噪声协方差 与测量噪声协方差 方程(3)(4)也可以修改矩阵。
这里选择噪声因子 、 和 ,因为帧速率也是 30FPS。请注意,根据稍微不同的状态向量 x 修改了 Q 和 R。长期预测可能,长期预测可能会导致 box shape 因此实现了类似的变形 ByteTrack 的逻辑。
在消融研究中,实验表明,这些改进带来了更高的进步HOTA。严格来说,是的HOTA整体改善的原因尚不清楚。假设这是正确的KF的修改有助于提高边界框宽度对目标的拟合,如图3所示。
2.2 Camera Motion Compensation (CMC)
Tracking-by-detection 跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机中,图像平面中边界框的位置可能发生显著变化,这可能导致 ID 如图4所示,切换或假阴性增加。
静态相机场景中的跟踪器也可能受到振动或漂移引起的运动的影响 MOT20 在非常拥挤的场景中,ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动、相机姿势的变化和物体的非刚体运动。导航、IMU 等)或相机内参,两个相邻帧之间的图像匹配是相机刚性运动在图像平面上投影的良好相似性。
作者使用OpenCV全球运动估计 (GMC) 技术表示背景运动。首先提取图像关键点,然后利用稀疏光流跟踪基于平移局部异常点抑制的特征。首先在这里使用RANSAC计算仿射变换矩阵 。然后使用仿射变换矩阵将预测边界框从k-将1帧的坐标系转换为下一帧k的坐标,如下所述。
仿射转换矩阵的平移部分只影响边界框心位置,而另一部分影响所有的状态向量和噪声矩阵。相机运动校正步骤可以通过以下等式执行:
当 # 是包含仿射矩阵 A 的尺度和旋转部分的矩阵时,T 包含平移部分。通过定义和 来使用数学技巧。此外,、 分别是相机运动补偿前后 KF 时间 k 的预测状态向量。, 分别是校正前后KF的预测协方差矩阵。之后,在卡尔曼滤波器更新步骤中使用 , 如下:
在高速的情况下,状态向量的完全修正,包括速度项是必要的。当相机与帧率相比变化缓慢时,校正值为等式8可以省略。通过应用这种方法,跟踪器对相机的运动具有较好鲁棒性。
在对刚性相机运动进行补偿之后,并在一个物体的位置从一帧到下一帧仅略有变化的假设下。在在线高帧率应用中,当出现漏检情况时,可以使用KF的预测步骤进行轨迹外推。这可能会导致更高的MOTA轨道更连续的关注。
2.3 IoU-Re-ID Fusion
为了利用深度视觉表示的最新发展,将外观特征集成到的跟踪器中。为了提取这些 Re-ID 特征,在来自 FastReID 库的 BoT (SBS) 之上采用了更强的基线,FastReID 以 ResNeSt50 作为主干。采用指数移动平均 (EMA) 机制来更新第 k 帧处第 i 个 tracklet 的匹配 tracklet 外观状态 ,
其中 是当前匹配检测的外观嵌入,α=0.9 是动量项。因为外观特征可能容易受到人群、遮挡和模糊对象的影响,为了保持正确的特征向量,只考虑高置信度检测。为了在平均轨迹外观状态 和新的检测嵌入向量 之间进行匹配,测量余弦相似度。作者决定放弃外观成本 和运动成本 之间的共同加权和来计算成本矩阵C:
其中权重因子λ通常设置为0.98。
作者开发了一种结合运动和外观信息的新方法,即 IoU 距离矩阵和余弦距离矩阵。首先,就 IoU 的分数而言,低余弦相似度或距离较远的候选者会被拒绝。然后,使用矩阵的每个元素中的最小值作为Cost矩阵 C 的最终值。IoU-ReID 融合管道可以表述如下:
其中 是Cost矩阵C的(i,j)元素。 是 tracklet 第 i 个预测边界框和第 j 个检测边界框之间的 IoU 距离,表示运动成本。$d^{cos}_{i,j} 是平均 tracklet 外观描述符 i 和新检测描述符 j 之间的余弦距离。 是新设计的Cost。 是接近阈值,设置为 0.5,用于丢弃不太可能的轨迹和检测对。 是外观阈值,用于将 tracklets 外观状态和检测嵌入向量的正关联与负数分离。
在图 5 之后将 设置为 0.2。基于匈牙利匹配和前面提到的Cost矩阵解决了高置信度检测(即第1个关联步骤)的线性分配问题。
3实验
3.1 消融实验
3.2 SOTA对比
后台回复:即可下载CVPR 2021论文和代码开源的论文合集
后台回复:即可下载ICCV 2021论文和代码开源的论文合集
后台回复:即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看