资讯详情

基于深度学习的多传感器标定

点击上方“”,选择加""或“

重磅干货,第一时间送达  

本文转自:计算机视觉life

校准是确定不同坐标系的相互转换关系,是传感器数据集成的前提,特别是激光雷达和图像数据。这里是深度学习的训练方法CNN模型回到坐标系转换的参数。

主要是两个CNN模型:RegNet和CalibNet。

RegNet应该是第一个深度卷积神经网络(CNN)推断多传感器6的自由度(DOF)外部参数标定,即激光雷达(LiDAR)单目摄像头。RegNet将标定的三个步骤(特征提取、特征匹配和全局回归)映射到单个实时CNN模型中。训练期间,系统随机重新调整,以便训练RegNet激光雷达投影到相机的深度测量和推断RGB图像之间的对应关系,最终回到校准的外部参数。此外,多个通过迭代执行CNN,不同程度的失标(decalibration)数据训练。如图所示。

失标定
确定基本事实(GT)
RegNet标定结果

首先,传感器坐标系中给出的点x转换为世界坐标系中的点xy,定义为仿射转换矩阵H,即y = Hx。据估计,变换矩阵H的任务称为外部校准。应用深度学习需要重新定义外部校准的问题,并在给定初始校准时Hinit标定基本事实Hgt在确定失标矩阵的情况下φdecalib,其定义如下

然后可以随机改变Hinit为了获得大量的训练数据。为了在校准过程中建立可观察的对应关系,使用它Hinit在摄像头图像平面上投影摄像头中的参数矩阵P

在每个像素(u,v),如果没有投影激光雷达点,则存储投影点的反深度值(摄像头坐标)zc或者零。由于大多数常见的激光雷达传感器只提供少量的测量数据,因此深度图像非常稀疏。为了应对这种稀疏性,在输入深度图中使用最大值池(Max Pooling)采样投影激光雷达深度点。

下图显示Regnet实现结构框图的深度和RGB图像之间的校准。使用初始校准Hinit投影深度点RGB图像上。在CNN使用网络的第一和第二部分NiN(Network in Network)块提取丰富的匹配特征,包括索引显示NiN块第一卷积层的核大小k。每个模块右上角显示特征通道的数量。CNN网络的最后一部分通过使用两个全连接层收集全局信息来回归失标定。(注:NiN块由一个k×k卷积,然后是几个1×1卷积组成。)在训练矩阵在训练过程中随机排列,形成不同深度点的投影数据。

如下图所示,深度点的投影随给定的初始标定值而强烈地变化。当初始校准从标定的基础事实(GT)旋转偏离20°平移偏离1.5米时,激光雷达点云的大部分投影点可能会导致图像区外的难度RGB建立相应的图像关系。

即使在这些情况下,训练的CNN网络仍然可以改进校准。使用新的估计校准参数可以再次投影深度点,从而产生更多的深度点供相关计算。然后,该步骤可以多次迭代。

初始化
结果

CalibNet它是一个自监督的深度网络,可以实时自动估计激光雷达和2D摄像头之间的6-自由度刚体转换关系。在训练过程中,没有直接监督(如不直接返回校准参数);相反,可以训练网络预测校准参数,以最大限度地输入图像和点云的几何和光度一致性。

下图是CalibNet的流程图:(a)来自标定摄像头RGB图像;(b)原始激光雷达点云作为输入,输出最好对齐两个输入的6-自由度刚体变换T;(c)彩点云输出显示错误标定;(d)显示使用CalibNet网络校准后的输出。

该网络将RGB图像,相应的误校准(mis-calibration)激光雷达点云和相机校准矩阵K作为输入。作为预处理步骤,首先将点云转换为稀疏深度图,将激光雷达点云投影到图像平面。由于初始误标定的不准确,将误标定点投影到图像平面会导致稀疏深度图与图像(严重)不一致,如上图(c)所示。将RGB输入图像和稀疏深度图标准化±然后用5 x 最大池化窗将稀疏深度图最大化为半致密深度图。

虽然网络输出可以直接预测平移,但需要so(3) 输出旋转矢量转换为相应的旋转矩阵。ω ∈ so(3) 可使用指数图(exponential map)转换为SO(3)。

一旦将网络预测的校准参数转换为T∈SE(3)使用3中的刚体变换-D空间变换器层(Spatial Transformer Layer),输入深度图通过预测变换T进行变换。原始3在这里扩展D空间变换器层以处理稀疏或半致密的输入深度图,如上图(d)。

下图是CalibNet网络结构图。网络主要由网络主要由网络主要由网络主要由网络主要由由网络主要由网络主要由网络主要由网络主要由网络主要由主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由主要由网络主要由网络主要由网络主要由主要由网络主要由网络主要由网络主要由主要由主要由主要由主要由网络主要由主要由网络主要由网络主要由主要由网络主要由主要由主要由网络主要由网络主要由主要由网络主要由网络主要由网络主要由主要由主要由网络主要由网络主要由主要由主要由主要由主要由主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由主要由网络主要由主要由主要由网络主要由网络主要由网络主要由网络主要由主要由网络主要由主要由主要由主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由网络主要由主要由网络主要由网络主要由网络主要由RGB和深度两个不对称分支组成,每个分支执行一系列,因此深度流滤波器在每个阶段都会减少。然后两个分支的输出沿着信道的维度连接,并通过一系列额外的全卷积和批规则化(Batch Norm)层,用于整体特征聚合。分离旋转和平移的输出流,以捕捉旋转和平移之间可能存在的模态差异。网络输出为1×6矢量ξ=(v, ω)∈ se(3), v是平移速度矢量,ω是旋转速度矢量。

以下是损失函数的定义:

1. 光度损失:将预测的深度图和正确的深度图之间的密集像素误差定义为,

2. 点云距离损失:3D空间变换器层允许反投影(back projection)后点云转换。在这个阶段,尝试最小化未校准的转换点和目标点云之间的3D-3D点距离。测量距离

a) Chamfer 距离

b) 推土机距离(Earth Mover’s Distance):

c) 质心ICP距离

最后,整个损失函数定义为:

下图是CalibNet一些校准结果。第一行显示输入RGB图像,第二行显示投影到图像上的相应误校准的激光雷达点云。第三行显示激光雷达点云,利用网络预测转换投影,最后一行显示相应的基本事实结果。第二行中的红色框表示不对齐,第三行中的红色框表示校准后的正确对齐。

在「」微信官方账号后台回复:下载全网第一份OpenCV中文版扩展模块教程,涵盖等20多章。

在「」微信官方账号后台回复:可下载包括等待31个视觉实战项目,帮助快速学校计算机视觉。

在「」微信官方账号后台回复:即可下载内容个基于实现20个,实现OpenCV学习进阶。

交流群

欢迎加入微信官方账号读者群与同行交流。SLAM、三维视觉、传感器、自动驾驶、摄影计算、检测、分割、识别、医学图像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描以下微信号加群,备注:昵称 学校/公司 研究方向,例如:张三 上海交大 视觉SLAM“。请按格式备注,否则不予通过。请按格式注明,否则不予通过。添加成功后,将根据研究方向邀请进入相关微信群。在群里发广告,否则会请出群。谢谢你的理解~

标签: 传感器标定表传感器网络中基于kzc01029950传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台