一种基于深度学习和条件随机场的多目标跟踪方法与流程-锐单电子商城

本发明涉及多目标跟踪领域，特别是基于深度学习和条件的随机场。

背景技术：

尽管多目标跟踪技术有了很大的发展，但由于跟踪精度低、速度慢等问题，仍难以应用到实践中。多目标跟踪，为了准确匹配检测结果，往往需要提取判断能力强的特征，如SIFT，HOG等等，传统的方法不仅耗时，而且由于特征本身的设计，其判断能力也有限。近年来，深度学习在计算机视觉领域取得了辉煌的成就，特别是卷积神经网络，其特点是数据驱动、网络生成而不是人工设计。由于其强大的特征描述能力，它得到了广泛的应用。因此，必须将深度学习应用到多目标跟踪领域。

目前，多目标跟踪方法主要是基于检测的跟踪，即先利用检测算法将图像中的目标检测出来，然后对每帧图像中检测出的目标进行匹配连接，而多目标跟踪算法研究的重点在于匹配连接模型。

现有的方法主要分为两类，一类是注重提取具有判别性的特点，另一类是努力建立更稳定的匹配关联模型：

（1）提高特征表达能力的方法主要是根据多目标跟踪问题的特征设计更符合问题的特征。这种算法经常将多目标跟踪中的运动特征和目标之间的关系添加到特征设计中，但由于屏蔽等原因，往往会出现更多的匹配问题。典型代表如Anton Milan等人提出的CEM(参考：Milan,A.and Roth,S.and Schindler,K.,Continuous Energy Minimization for Multi-Target Tracking,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.36,NO.1,2014)，NChoi W等人提出的NOMT(参考：NChoi W.Near-online multi-target tracking with aggregated local flow descriptor.Proceedings of the IEEE International Conference on Computer Vision.2015:3029-3037.)。

(2)数据关联模型主要集中在如何匹配目标上。其中一种方法是将数据之间的关联建立为贝叶斯模型。虽然这种方法可以改善屏蔽带来的跟踪问题，但它通常需要大量的参数，如典型的代表Yu Xiang提出的MDP(参考：Xiang Y,Alahi A,Savarese S.Learning to track:Online multi-object tracking by decision making,Proceedings of the IEEE International Conference on Computer Vision.2015:4705-4713.).另一种方法是将其建模成图形模型，通过求解能量最小化的图形模型来获得跟踪结果，虽然这种方法可以获得最优或局部最优的解，但是跟踪问题往往是离线的，速度慢，典型的代表是Anton Milan等人提出的DCE(参考：Milan A,Schindler K,Roth S.Multi-target tracking by discrete-continuous energy minimization.IEEE transactions on pattern analysis and machine intelligence,2016,38(10):2054-2068.)，还有一种新的方法来探索使用递归网络来建模跟踪的顺序问题。虽然它可以更大程度地利用跟踪中的运动连续信息，但它与特征的整合仍然存在许多问题，典型的代表是Anton Milan等人提出的RNN-based方法(参考:Milan A,Rezatofighi S H,Dick A,et al.Online multi-target tracking using recurrent neural networks[J].arXiv preprint arXiv:1604.03635,2016.)。

技术实现要素：

本发明的目的是克服现有多目标跟踪技术的缺点和不足，提出基于深度学习和随机场条件的多目标跟踪方法，可以快速有效地区分类似目标，改善屏蔽引起的间歇跟踪问题，采用滑动窗口实现半在线跟踪方法，使多目标跟踪方法更加准确有效。

本发明的目的是通过以下技术方案实现：一种基于深度学习和条件的多目标跟踪方法，包括步骤：

S1.训练网络:使用给定的训练集训练深度网络；

S2.应用阶段:输入待处理视频的目标检测结果，筛选检测结果，获得筛选后的检测结果；

S3、提取特征：将筛选后的检测结果输入深网，得到检测结果的表观特征；

S4、生成跟踪片段：根据滑动窗口中检测结果与检测结果、目标与检测结果之间的表观特征相似性和位置关系，将同一目标的检测结果连接成跟踪片段；

S5.建模：将跟踪片段集合建模，获得条件随机场模型，其中条件随机场中的点代表跟踪目标可能的跟踪片段集合，集合的大小为跟踪片段的数量；点与点之间的存在表示不同目标跟踪片段共存的可能性；

S6.计算:随机场中点的势能和边缘的势能；

S7.解决方案：使用联合树算法解决每个目标的跟踪片段索引，作为滑动窗口中的跟踪结果；

S8.滑动窗口，设置滑动步长，计算滑动窗口中的跟踪结果，依次循环，获取整个视频的跟踪结果。

在步骤中，作为首选S1.深度网络包括两个卷积层、两个全连接层和一个归一层。训练中使用的损失函数是triplet-loss其表达式为：

在上述公式中，它是锚点，即某一目标的表观特征，是正样本特征，是与锚点属于同一目标的其他样本，是负样本特征，是与锚点属于不同目标的样本，σ放松参数。

在步骤中步骤中S2、筛选目标检测结果，包括：去除低于阈值的检测结果，去除检测结果与真实标记的交并比大于一定阈值的检测结果；检测信心得分是检测器对检测结果的信心值，交并比是指两个检测框交叉面积除以并集面积的比例，检测框与真实标记框的重合度越高。

在步骤中，作为首选S3.在将筛选后的检测结果输入深度网络提取特征之前，应将检测结果集成到相同的尺寸。深度网络最后一层全连接层的输出应作为检测结果的表观特征。

在步骤中，作为首选S4.表观相似度与运动相似度大于给定阈值的检测结果形成跟踪片段，其中表观相似度采用欧洲距离测量，其中包括数学公式f(di)m，f(dj)m分别是检测结果di,dj第m维表观特征；

运动相似性由当前帧中检测框架位置的交并比平方测量，其中两个框架交并比的数学表达式为p,d分别是预测框和检测框，inner(p,d)两框体的重叠面积，union(p,d)两框体的联合面积。

此外，预测的框架位置采用二项拟合进行预测，具体如下：根据跟踪片段中框架位置确定二项参数，其中包括数学表达式x,y分别是框架的中心位置，n为跟踪片段内框体的数量，为二项拟合函数，可通过上式获得二项参数；同样，时间t和可以拟合x然后预测跟踪片段的二项函数t1时刻框体的位置为其中h为已连接的跟踪片段。

此外，预设一个遗忘时间。如果在后续跟踪片段中没有超过遗忘时间的目标，则删除目标。

在步骤中，作为首选S6.计算条件随机场中点的势能，其数学表达式为T滑动窗口的长度，滑动窗口前已知的第m跟踪目标，滑动窗口中的第m跟踪目标xm条跟踪片段；

表示跟踪目标和跟踪片段能，第二个是位置关系的势能，η这是滑动窗口中最后一次出现的参数，o2.预测框与检测框交并比的平方；

fp(di,dj)＝-DA(di,dj)为跟踪片段中两个检测框的势能，为高阶势能ξ计算预测框与检测框中心点之间的欧式距离，K欧式距离计算两个检测结果的颜色直方图，γ,ε,θ为参数。

在步骤中，作为首选S在6中，不同目标跟踪片段之间的势能主要惩罚不同目标的跟踪片段在某一时刻连接相同的检测框，侧面的势能数学表达式为：

其中，随时跟踪片段τ当两个跟踪片段是时间时，连接的检测框是知识函数τ连接到同一个检测框时为1，否则为0，α,β是参数，其中β应超过一定值，且该值应足够大，以避免框架的重复分配。

与现有技术相比，本发明具有以下优点和有益效果：

1.本发明的方法是基于深度卷积神经网络triplet-loss训练网络使网络输出的特征更容易区分不同的目标，网络结构的选择保证了提取特征的速度。

2.本发明提出了一种新的跟踪片段相似性测量方法。结合表观特征和运动特征，添加物体的运动连续性特征，丰富信息，同时考虑跟踪片段同时相互排斥的特征，使测量更加完善。

3.本发明实现了一种基于跟踪片段集的半在线跟踪算法。跟踪片段集可以连接到同一目标的测试结果，作为条件随机场的点，使跟踪结果在滑动窗口中局部最好，并使用联合树算法更快地解决。

附图说明

图1是基于深度学习和条件随机场的多目标跟踪方法流程示意图。

图2是本发明方法在一般评价标准上的性能结果。

图3(a)-(c)本发明方法的跟踪效果示意图。

具体实施方法

附图仅用于示例说明，不能理解为本专利的限制；为了更好地解释本实施例，部分部件将被省略、放大或缩小，不代表实际产品的大小；对于本领域的技术人员，可以理解附图中的一些知名结构及其说明。以下是本发明的技术方案的进一步解释。

本次实验在MOT16数据集(参考:Milan,A.and Leal-Taix,L.and Reid,I.and Roth,S.and Schindler,K.MOT16:A Benchmark for Multi-Object Tracking.arXiv:1603.00831)，多目标跟踪算法常用的数据集分为训练集和测试集各包含7个场景的视频片段，每个片段包含的帧数由450到1500不等。图3是该数据集的部分图像示例。由该图可以看出，该数据集包含了多种情景，目标较为密集，背景复杂，在该数据集上进行实验具有一定的挑战性。

图1展示了本发明一种基于深度学习和条件随机场的多目标跟踪方法的具体步骤，以下是步骤的详述：

(1)利用训练集给定的图片和标注信息对深度卷积网络进行训练，其中网络结构包括两个卷积层、两个全连接层和一个归一化层，训练使用的损失函数是triplet-loss损失。输入网络前需将检测结果归一化到80*230大小。

(2)对待处理视频目标检测后给出的检测结果进行预处理，包括：去掉检测得分低于阈值的检测结果，本实验中该阈值设置为dtTre＝0；去掉交并比大于一定阈值的检测结果，本实验中交并比阈值设置为iouThre＝0.7。

(3)将时间滑窗内预处理后的检测结果进行归一化，本实验中时间滑窗长度T＝10，归一化尺度为80*230，然后输入深度卷积网络提取特征，每个检测结果在通过最后的全连接层后得到400维的特征向量作为其表观特征。

(4)产生跟踪片段。如果当前帧为第一帧，则该帧中每个检测结果作为一个目标，如果不是第一帧，则计算当前帧中的检测结果与已有跟踪片段的相似度，包括根据计算检测结果有已有跟踪片段中检测结果的表观相似度，以及利用计算某跟踪片段在当前帧中预测框体的位置，并根据计算检测结果与预测框体的交并比的平方作为其运动相似度。如果表观相似度和运动相似度分别高于给定阈值，则认为该检测结果有可能与该跟踪片段属于同一目标，将其进行连接，除此之外设置遗忘时间deleteT＝15帧，一般监控视频的帧率是25帧每秒，即25fps，即超过遗忘时间都没有出现的目标将其删除，最后得到滑动窗口内的多个跟踪片段。

(5)建模。滑动窗口内属于同一目标的跟踪片段集作为一个点，跟踪片段与跟踪目标的相似度采用本发明提出的度量方式，根据计算跟踪每个点的势能向量，本实验中设置参数为(η,γ,ε,θ)＝(0.98,20,0.4,0.8)；同时根据计算点与点之间边的势能，本实验中设置参数为(α,β)＝(0.5,1000)。因此每个点的势能向量为其中i指第i个点，也即当前的第i个跟踪目标，N为该跟踪目标在滑动窗口内的跟踪片段个数；每条边的势能矩阵为其中i,j分别代表点i,j，N和M分别代表点i,j中包含的跟踪片段个数。

(6)求解。利用联合树算法对形成的条件随机场进行求解。本发明所采用的求解方法本身对于结果并无影响，所以直接采用标准工具包(参考:M.Schmidt.UGM:AMatlab toolbox for probabilistic undirected graphical models)进行求解，不做修改。

(7)滑动窗口，滑动步长step＝5，计算滑窗内的跟踪结果，依次循环，得到整个视频的跟踪结果。

图2所示为本次实施的实验在一般评价标准上的性能结果，实验评估标准与论文“MOT16:A Benchmark for Multi-Object Tracking”(参考：Milan,A.and Leal-Taix,L.and Reid,I.and Roth,S.and Schindler,K.MOT16:A Benchmark for Multi-Object Tracking.arXiv:1603.00831)提出的标准相同，该论文提供了多目标跟踪领域的基本评估标准。其中MOTA为跟踪的准确度；MOTP为跟踪的精确度，主要与检测器的精确度有关；MT(most tracked)，表示超过目标真实跟踪结果80％的目标数目；ML(most lost)，表示低于目标真实跟踪结果20％的目标数目；FP(false positive)和FN(false negative)分别表示误报率和漏报率，IDs(ID switch)即为跟踪ID交换的次数，FPS为算法每秒处理的帧数，来评估算法的效率。从图2中可以看出，本实验的效果要优于用递归网络的多目标跟踪方法(RNN_based)。

从图3中三组跟踪效果可以看出，本发明的跟踪方法，对检测结果较准确的数据集，如在(a)组和(b)组中，检测框体较准确，跟踪效果也相对较好；在检测本身存在较大误差时，跟踪效果也随之变差；在背景杂乱、目标较多的场景下，对于检测较准的目标跟踪依然较准。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。

对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

资讯详情

一种基于深度学习和条件随机场的多目标跟踪方法与流程

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

一种基于深度学习和条件随机场的多目标跟踪方法与流程

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录