资讯详情

视觉SLAM技术解读

点击上方“”,选择加""或“

重磅干货,第一时间送达  

本文转自|新机器视觉

近年来,SLAM激光技术取得了惊人的发展,领先一步SLAM在主要场景中应用于主要场景中SLAM虽然落地应用不如激光SLAM,但这也是目前研究的热点。今天我们将详细讨论视觉SLAM那些事。

视觉SLAM主要基于相机完成环境感知工作。相对而言,相机成本低,易于放置在商品硬件上,图像信息丰富,视觉SLAM也备受关注。

目前,视觉SLAM可分为单目、双目(多目)RGBD这三种类型,还有鱼眼、全景等特殊相机,但在研究和产品中仍然很少。此外,结合惯性测量设备(Inertial Measurement Unit,IMU)的视觉SLAM现在也是研究热点之一。在实现难度方面,这三种方法大致分为:单目视觉>双目视觉>RGBD。

单目相机SLAM简称MonoSLAM,用摄像头就可以完成SLAM。最大的优点是传感器简单,成本低,但也有一个大问题,就是不能准确深入。

一方面,绝对深度未知,单目SLAM机器人运动轨迹和地图的真实大小是无法获得的。如果轨迹和房间同时放大两倍,单起来是一样的。因此,单目SLAM相对深度只能估计。另一方面,单目相机无法通过图像获得图像中物体的相对距离。为了估计这个相对深度,单目SLAM依靠运动中的三角测量来解决相机运动,估计像素的空间位置。也就是说,它的轨迹和地图只有在相机运动后才能收敛,如果相机不运动,就无法知道像素的位置。同时,相机运动不能纯粹旋转,给单目SLAM应用程序带来了一些麻烦。

与单目相机不同,三维视觉不仅可以在运动中估计深度,还可以在静止时估计,消除了单目视觉的许多麻烦。然而,双目相机或多目相机的配置和校准更为复杂,其深度范围也受到双目基线和分辨率的限制。通过双目图像计算像素距离是一个非常消耗计算量的问题,现在更常用FPGA来完成。

RGBD相机是2010年左右兴起的相机。它最大的特点是可以通过红外结构光或TOF原理,直接测出图像中各像素离相机的距离。因此,它比传统相机能够提供更丰富的信息,也不必像单目或双目那样费时费力地计算深度。

1.传感器数据

在视觉SLAM主要是相机图像信息的读取和预处理。如果在机器人中,也可能有码盘、惯性传感器等信息的读取和同步。

2.视觉里程计

视觉里程计的主要任务是估计相邻图像间相机的运动和局部地图的外观,最简单的是两个图像之间的运动关系。计算机是如何通过图像来确定相机的运动的。在图像上,我们只能看到一个像素,知道它们是相机成像平面投影中某些空间点的结果。所以你必须首先了解相机和空间点之间的几何关系。

Vo(也称前端)可以通过相邻帧间的图像估计相机运动,恢复场景的空间结构,称为里程计。里程计之所以被称为里程计,是因为它只计算相邻时刻的运动,信息无关。相邻时刻的运动串联构成了机器人的运动轨迹,从而解决了定位问题。另一方面,地图是根据每个时刻的相机位置计算出每个像素对应的空间点的位置。

3.后端优化

后端优化主要是处理slam噪声问题。任何传感器都有噪传感器都有噪音,所以除了处理如何从图像中估计相机运动外,还要注意这个估计有多少噪音。

前端为后端提供待优化的数据和这些数据的初始值,后端负责整个优化过程。它通常只面对数据,这与数据来自哪里无关。在视觉上slam前端与计算接视觉研究领域更为相关,如图像特征提取与匹配后端主要是滤波和非线性优化算法。

4.回环检测

回环检测又称闭环检测,是指机器人识别到达场景的能力。若检测成功,可显著减少累积误差。回环检测本质上是检测观测数据相似性的算法。对于视觉SLAM,目前大多数系统采用成熟的词袋模型(Bag-of-Words, BoW)。图像中的视觉特征是词袋模型(SIFT, SURF等)聚类,然后建立词典,然后找出每张图片中包含的单词(word)。一些研究人员还利用传统的模式识别方法将回环检测构建成分类问题,并对训练分类器进行分类。

5.建图

建筑图主要是根据估计轨迹建立与任务要求相对应的地图。在机器人学中,地图主要包括格栅地图、直接表征法、拓扑地图和特征点地图。而特征点地图是用有关的几何特征(如点、直线、面)表示环境,常见于视觉SLAM技术中。这种地图通常通过GPS、UWB以及相机配合稀疏模式的相机。vSLAM算法的优点是数据存储量和计算量相对较小,在最早的算法中更为常见SLAM算法中。

大多数视觉SLAM系统的工作模式是通过连续的相机帧跟踪设置关键点,并用三角算法定位其3D位置,同时使用此信息来接近相机自身的姿势。简单来说,这些系统的目标是绘制与自身位置相关的环境地图。该地图可用于机器人系统在环境中的导航。以其他形式SLAM不同的技术只需要一个3D视觉摄像头可以做到这一点。

通过跟踪摄像头视频帧中足够数量的关键点,可以快速了解传感器的方向和周围物理环境的结构。所有视觉SLAM系统不断工作,使重新投影误差(Reprojection Error)或者投影点和实际点之间的差异和实际点之间的差异最小化Bundle Adjustment(BA)算法解决方案。vSLAM该系统需要实时操作,这涉及到大量的操作,因此位置数据和映射数据经常分别进行Bundle Adjustment,但在最终合并终合并前加快处理速度很容易。

在行业内,视觉SLAM与激光SLAM谁更好,谁将成为未来的主流趋势,成为热点,不同的人也有不同的观点和观点,以下将从成本、应用场景、地图精度、易用性等方面进行详细阐述。

1.成本

在成本方面,激光雷达的价格普遍较高,但目前国内也有低成本的激光雷达解决方案,VSLAM数据信息主要通过摄像头收集。与激光雷达相比,摄像头的成本明显要低得多。然而,激光雷达可以更准确地测量障碍点的角度和距离,便于定位导航。

2.应用场景

就应用场景而言,VSLAM应用场景要丰富得多。VSLAM它可以在室内外环境中工作,但它高度依赖光,不能在黑暗或一些无纹理区域工作。SLAM目前主要用于室内地图构建和导航。

3.地图精度

激光SLAM构建地图时,精度高,思兰科技RPLIDAR系列构建的地图精度可达2cm左右;VSLAM,比如常见的,大家也用了很多深度相机Kinect,(测距范围为3-12m之间),地图构建精度约3cm;所以激光SLAM一般来说,构建的地图精度比VSLAM高,可直接用于定位导航。

视觉SLAM的地图建立

4.易用性

激光SLAM基于深度相机的视觉SLAM根据生成的点云数据,直接获取环境中的点云数据,计算障碍物与障碍物之间的距离。但基于单目、双目、鱼眼相机的视觉SLAM该方案不能直接获得环境中的点云,而是形成灰色或彩色图像障碍物的距离需要通过不断移动位置、提取和匹配特征点来计算。

一般来说,激光SLAM视觉导航方案相对成熟,也是目前最可靠的定位导航方案SLAM这仍然是未来研究的主流方向,但未来两者融合是必然趋势。

本文来源:http://www.slamtec.com/cn/News/Detail/237

在「」微信官方账号后台回复:下载全网第一份OpenCV中文版扩展模块教程,涵盖等20多章。

在「」微信官方账号后台回复:可下载包括等待31个视觉实战项目,帮助快速学校计算机视觉。

在「」公众号后台回复:即可下载含有个基于实现20个,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。在群内发送广告,否则会请出群,谢谢理解~

标签: 内建kinect传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台