资讯详情

2021综述:视频监控中的多目标跟踪

点击上方“3D视觉车间,选择星标

干货第一时间送达

7da8645f438f503d4d2a02d8e9e94e24.png

来源丨CV技术指南

作者似乎有光

本文来自一篇2021年的论文,简要回顾了现有论文SOTA模型和MOT讨论算法和多目标跟踪中的深度学习,介绍评价指标、数据集和基准结果,最终得出结论。

视频监控中的多目标跟踪(MTT)这是一项重要而具有挑战性的任务,因其在各个领域的潜在应用而引起了研究人员的广泛关注。多目标跟踪任务需要在每帧中单独定位目标,这仍然是一个巨大的挑战,因为目标的外观会立即改变,并且会有极端的屏蔽。此外,多目标跟踪框架还需要执行项任务,即目标检测、轨迹估计、帧间关联和重新识别。为了将问题限制在特定问题的上下文中,提出了各种方法和一些假设。本文利用深度学习表达能力MTT综述了模型。

多目标跟踪分为两个主要任务:目标检测和跟踪。MTT算法将唯一ID与在特定时间内保持特定对象的每个检测对象有关。然后使用这些ID来生成被跟踪对象的运动轨迹。检测通常由预先训练的检测器提供,亲和力模型提供检测和方法之间的估计;优化关联

目标检测的精度决定了目标跟踪系统的有效性。MTT模型的精度因比例而变化频繁id切换、旋转、光变化等因素影响很大。图1显示MTT算法输出。此外,多目标跟踪系统中还有复杂的任务,如背景杂波、后移、航迹初始化和终止。为了克服这些问题,研究人员利用深度神经网络提出了各种策略。


根据对象的初始化,MOT实现可分为基于检测(DBT)或者没有检测跟踪(Detection free tracking, DFT)。然而,MTT模型是围绕基于检测的训练进行标准化的,其中检测(识别帧中的对象)是作为预跟踪步骤来检索的。由于DBT目标检测器需要识别目标,因此性能在很大程度上取决于检测器的质量,因此选择检测框架非常重要。

检测器的输出通常用作跟踪器的输入,跟踪器的输出提供给运动预测算法,预测物体在接下来的几秒钟内移动到哪里。然而,在没有检测跟踪的情况下,情况并非如此。

DFT这是一项困难的任务,因为跟踪对象的信息有限,而且不清楚。因此,最初的边界只与背景中感兴趣的对象相似,对象的外观可能随着时间的推移而急剧变化。

在线跟踪算法,也称为顺序跟踪,。这种算法分步处理帧。这些信息对于自动驾驶和机器人导航等一些应用至关重要。

批次跟踪(离线跟踪)技术使用前一帧的信息,以确定给定帧中的对象身份。它们通常是;然而,由于计算和内存的限制,并不总是一次处理所有帧。


大多数算法共享的主要步骤如下:

:在一系列帧中使用边界框来定位目标。

:分析检测提取外观、运动或交互特征。

:检测相似度/距离计算中提取的特征。

:提供相同的检测对应于相同的目标ID,相似性/距离测量用于关联。


目标检测中的一些算法主要用于检测阶段。

YOLO单卷积神经网络直接从全图中预测bounding boxes和类概率,在全图上训练,直接优化检测性能,同时学习目标的泛化。YOLO对边界框预测施加了严格的空间限制,限制了模型可预测的相邻项目的数量。小物件,如鸟类,也有这个模型的问题。

faster R-CNN,由全深度组成CNN单一统一的对象识别网络提高了检测的准确性和效率,降低了计算成本。该模型集成了区域方案微调之间的交替训练方法,使基于深度学习的统一目标识别系统能够以接近实时帧率运行,然后在保持固定目标的同时进行微调目标检测。

要解决这个问题,Khan等人提出训练后只检测头部位置的时间一致性模型(temporal consistency model)。同样,,而不是整个身体形状。

Bewley在EL29上提出了framework SORT,以利用基于CNN检测MOT在前景中,它在速度和准确性方面取得了类似的最佳性能,专注于帧到帧的预测和关联。通过(Aggregated Channel Features, ACF)检测更换为Faster RCNN基于卡尔曼滤波器和匈牙利算法的系统结构,计算检测已成为最佳性能。在某些情况下,CNN目标边界框以外的其他目的用于检测步骤。

结合鲁棒检测和二分类器的新策略,跟踪多目标(如汽车),准确识别多车辆的鲁棒,Min提出升级ViBe。当ViBe用算法识别汽车时,CNN用它来消除假阳性。能有效抑制动态噪声,快速去除鬼影和物体的残留阴影。


深度模型用于研究时间和空间注意图或时间顺序等MOT特征时,性能可以得到改善。一些基于端到端深度学习的模型,不仅可以提取外观描述符的特征,还可以提取运动信息的特征。

Wang等人提出最早在MOT管道中应用DL方法之一。该系统充分利用单目标跟踪器的优点,在不影响计算能力的情况下解决了屏蔽引起的漂移问题;为了提高提取特性,网络采用了两层堆叠编码器,然后使用支持向量计计算亲和力。学习目标的可见性图,然后用来推断空间注意图,然后用来加权特征。此外,可见性贴图还可用于估计遮挡状态。这就是所谓的时间注意过程。

Kim等人声称多假设跟踪(Multiple Hypotheses Tracking, MHT)技术与现有的视觉跟踪视角兼容。现代基于检测的跟踪技术的进步和物体外观的高效特征的发展MHT过程提供了新的可能性。他们通过整合正则化的最小二乘框架来改进MHT,该框架用于在线训练每个跟踪目标的外观模型。

Wojke等人提出对SORT虽然在高帧率下获得了较好的精度和精度,但单位移位相对较多。Wojke等人通过整合外观运动信息进行改进,通过将相关度量替换为卷积神经网络(CNN),克服了这个问题。经过训练,卷积神经网络可以区分大规模行人重识别数据的行人。与SORT升级后的跟踪系统有效地将身份翻转次数从1423次减少到781次。这降低了约45%,在保持实时速度的同时实现了具有竞争力的性能。

Siamese CNN已被证明MOT它非常有用,因为学习跟踪阶段特征的目的是确定检测和跟踪之间的相似性。

Leal-taxe等人提出了两阶段匹配检测方法的策略,为行人跟踪中的目标关联挑战提供了新的视角。在这种情况下,他们将CNN该概念应用于多人跟踪,并提出判断两个测试是否属于同一轨迹,以避免数据关联的手动设计特征。模型的学习框架分为两个阶段。

CNN在Siamese 在结构中进行预训练,测量两个大小相等的图像区域的相似性,然后进行预训练CNN结合收集到的特征进行预测。将跟踪问题描述为线性规划,将深度特征与运动信息与梯度增强方法相结合,很好地解决了跟踪问题。


虽然有些人使用深度学习模型立即生成亲和力分数,而不需要特征之间的显式距离测量,但仍有其他方法可以通过CNN应用一些距离测量来计算跟踪和检测之间的亲和力。

米兰等人解决了神经网络环境中数据关联和轨迹估计的问题。MOT该模型扩展了由观测预测和更新组成的递归贝叶斯滤波器的跟踪目标状态RNN建模过程,输入目标状态、现有观测及相应的匹配矩阵和存在前景络中。该模型输出目标的预测状态和更新结果,以及判断目标是否终止的存在概率,取得了较好的跟踪效果。

Chen等人建议计算采样粒子和跟踪目标之间的亲和力,而不是计算目标和探测器之间的亲和力。取而代之的是,使用与被跟踪对象不一致的检测来创建新的轨迹并恢复丢失的对象。尽管它是一个在线监测算法,但在发表时,它能够在MOT15上获得最好的结果,既使用公共检测,也使用私人检测。


在一些MTT模型中已经使用深度学习来改进关联步骤。

Ma等人在扩大Siamese跟踪器网络时,采用了双向GRU来决定在何处终止跟踪器。对于每一次检测,网络提取轨迹特征并将其发送到双向GRU网络,双向GRU网络的输出在欧几里德空间中短暂汇集以提供轨迹的整体特征。在跟踪过程中,根据双向GRU输出之间的局部距离,生成子轨,然后将其拆分成小的子轨;最后,考虑到时间池全局方面的相似性,将这些子轨重新连接到长轨迹。在MOT16数据集上,此方法获得的结果与最新SOTA水平相当。

勒恩等人提出了一种使用多个深层RL(强化学习) 智能体完成关联任务的协同实现方案。预测网络和决策网络是该模型的两个关键组成部分。利用最新的跟踪轨迹,CNN被用作预测网络,并被训练以预测新帧中的目标运动。


除了基于以上四个步骤的模型,还存在一些其它的方法。

Jiang等人利用Deep RL代理完成了bounding boxes回归,提高了跟踪算法的效率;采用VGG-16CNN进行外观提取,提取的特征保存并使用目标最近10次运动的历史记录,然后集成网络预测bounding boxes运动、缩放以及终止动作等多种备选结果之一。在MOT15数据集上,在几种最先进的MOT算法上使用这种bounding boxes回归方法,提高了2到7个绝对MoTA点,使其在公共检测方法中名列前茅。

Xiang等人部署MetricNet进行行人跟踪,将亲和力模型与贝叶斯滤波器得到的轨迹估计相结合。利用VGG-16CNN对目标进行再识别训练,提取特征并进行bounding boxes回归,运动模型分为两部分,一部分以轨迹坐标作为输入,另一部分结合检测框进行贝叶斯滤波,并在MOT16和MOT15上输出目标的更新位置,该算法在在线方法中分别获得了最好的和次佳的得分。

无模型单目标跟踪(model free single object tacking) SOT算法的最新进展极大地推动了SOT在多目标跟踪(MOT)中的应用,以提高恢复能力并减少对外部检测器的依赖。另一方面,SOT算法通常被设计成将目标与其周围环境区分开来,当目标在空间上与类似的伪像混合时,它们经常会遇到问题,就像在MOT中看到的那样。

Chu等人提出了一种模型来解决鲁棒性和消除对外部检测器的依赖问题。他们在算法中使用了三种不同的CNN实现了一个模型。集成PafNet以区分背景和跟踪对象。该部分对跟踪目标进行区分,另一个集成的CNN是卷积层,它决定了跟踪模型是否需要刷新。使用支持向量机分类器和匈牙利技术,使用非关联检测来从目标遮挡中恢复。该算法在MOT15和MOT16数据集上进行了测试,第一种方法产生了最好的总体结果,第二种方法产生了在线方法中最好的结果。


最相关的是Classical metrics 和 CLEAR MOT metrics。

指出了算法可能遇到的缺陷,如等。

。MOTA将假阳性、假阴性和失配率合并为单个值,从而产生总体良好的跟踪性能。尽管有一些缺陷和抱怨,但这是迄今为止使用最广泛的评估方法。MOTP描述了使用边界框重叠和/或距离测量来跟踪对象的精确度。


MOTChallest数据集是目前可用的最大、最完整的行人跟踪数据集,为训练深度模型提供了更多的数据。MOT15是最初的MOT挑战数据集,它的特点是视频具有一系列属性,模型需要更好地推广这些属性才能获得好的结果。MOT16和MOT19是其他修改版本。

如下为Gioele等人列出在MOT ChallengeMOT15数据集和MOT16数据集上测试的公开结果,这些数据集记录自相应的出版物,以便对本工作中提到的方法之间的结果进行清晰的比较。

由于检测质量对性能有影响,因此将研究结果分为基于公共检测的模型和基于私有检测的模型。这些方法分为两类:在线和离线。

发布的参考文档的年份、其操作模式、MOTA、MOTP、IDF1、主要跟踪(MT)和主要丢失(ML)指标,以百分比表示;假阳性(FP)、假阴性(FN)、ID开关(IDS)和碎片(Frag)的绝对数;以每秒帧数(Hz)表示的算法速度。

对于每个度量,向上的箭头(↑)表示更高的分数,而向下的箭头(↓)表示相反的分数。在运行相同模式(批处理/在线)的模型中强调最佳性能,并且每个统计数据都以粗体突出显示。我们只在表2和表3中列出了从本综述中访问的模型获得的结果。

在现实中,使用深度学习和具有在线处理模式的模型产生了最大的结果。然而,这可能是更加重视建立在线方法的结果,这在MOT深度学习研究社区中变得越来越流行。大量的碎片化是在线方法中经常出现的问题,这在MOTA得分中没有反映出来。当遮挡或探测丢失时,在线算法不会向前看,不会重新识别丢失的目标,也不会插入视频中丢失的轨迹片段。


本文对利用深度学习解决MTT问题的方法进行了简要的探索。这项研究讨论了使用深度学习来解决MTT问题的四个步骤中的每一个步骤的解决方案,使SOTA的MOT技术的总数达到n。

对MOT算法的评估,包括评估措施和来自可访问数据集的基准结果,进行了简要的讨论。单对象跟踪器最近受益于将深度模型引入全局图优化算法,从而产生了高性能的在线跟踪器;另一方面,批处理技术受益于将深度模型引入全局图优化算法。

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

标签: fn7325力传感器fn3060力传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台