资讯详情

浅述单目3D目标检测

作者慕益云子@知乎

来源丨https://zhuanlan.zhihu.com/p/432135656

编辑丨3D视觉工坊

三维目标检测是一个相对上游、基础但新兴的任务领域。由于自动驾驶和2D如何发展目标展,如何

根据任务输入的不同,三维目标检测可分为三个任务流派:首先,所有流派都输入单目RGB图像和相机参数;额外使用;LiDAR信息(或称velodyne)的;多目图像(主要是双目视觉)的额外使用;以及不使用其他信息的信息。当然,也有一些工作关注无监督的三维目标测试,或者使用其他数据集来研究迁移性能,这些工作也应该根据输入属于相应的任务领域。

这三个任务流派SOTA(2021年11月)评估指标约为82%、52%和15%(AP 3D R40 @0.7 )

本文重点关注单目三维目标检测领域KITTI 3D Object(http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d)工作的发展脉络。覆盖论文侧重于2018年以来(该数据集成立于2017年,大致是该领域研究兴起的时期)CV顶会,随缘附加一些其他会议的论文。

希望看完这个小综述,大家都能看到单目3D目标测试有初步的理解和理解。作者学识渊博。欢迎大家从批判的角度进行审查。如果你不明白,欢迎讨论和纠正。

为了方便一些读者只想了解该领域的主要工作,避免本综述过于臃肿,最终决定将每篇论文的介绍分别发送到一篇独立的文章中,本文只提取其概述部分,并附上文章链接,方便感兴趣的读者进一步详细阅读,相当于一个小专栏的形式。

同时,对数据集和评估指标进行了比较technical,因此,决定先介绍主要论文,再介绍这些内容。

10646dc40677f1f05b31ed569c75bc99.png

timeline

taxonomy

论文主要按时间顺序讲述。个人比较喜欢闭眼复述,所以概述部分不仅仅是对的Abstract或conclusion翻译是一个相对优越的总结,如整体网络流量、亮点和不足,为整个领域的发展做出了巨大贡献。

如果概述后,如果您对文章感兴趣,您可以点击链接名片进入论文的详细部分。如果没有详细的名片,它可能是写的。预计本文将长期建设。欢迎收集,不时回来,并发表评论(可能会加热?

另外,关于如何阅读论文,请参阅我的文章:谈谈CS.CV方向如何阅读论文?(https://zhuanlan.zhihu.com/p/396064894)

2018年深度学习领域是什么情况?

R-CNN方法时兴、Mask R-CNN(2017 ICCV)刚出生,但如SSD一种单阶段方法离两阶段方法还有一定的精度差距;

KITTI 3D Object2017年刚刚发布了数据集。最早KITTI 3D是以2D目标检测 6D组织位置估计任务,所以你会看到它Mono3D这样的开山鼻祖,依然侧重于pose estimation;随着KITTI针对其新任务的系统改进和方法层出不穷,人们逐渐意识到,单目3D它也可以作为一个独立的研究领域。

与3D在任务密切相关的单目深度估计领域,MonoDepth这种无监督方法引起了很多关注,也有一些监督方法占据了它SOTA,但是更好DORN、BTS工作还没出来。

如果你对2D测试不太熟悉,这里多说几句:我们知道,事实上,在接下来的几年里,出现了很多(如CenterNet、FCOS等)在参数较少的同时,精度可以与两阶段的方法相媲美,这些方法也是单目3D检测领域影响较大;

同时,之所以提到单目深度,是因为当时人们的观念还在,想预测3D bounding box我们必须有一个简单的观点,如全球深度信息,我们将逐渐感受到这种思想在后续论文中的进步。

:Multi-Level Fusion based 3D Object Detection from Monocular Images

https://openaccess.thecvf.com/content_cvpr_2018/CameraReady/2380.pdf

未开源

这是该领域的一项非常早期的工作,其主要思想是把2D的目标检测任务拓展到3D上面,并声称,能够将2D作为一个独立的模块,检测被直接迁移。为此,作者设计了一种多级融合在网络的不同阶段,机制可以使深度分支和RGB分支获得信息整合,协助完成各阶段的预测。

一般来说,网络设计的多层次融合机制至少是目前常规的,大致可以看作是多阶段多任务学习机制。就我个人而言,它的亮点实际上是在这种混乱开放的情况下,提出了解耦每个参数的预测,即3D dimension、orientation就像2D同样,直接从特征中预测;3D location可能更关键,更难解耦,需要考虑全局信息,结合特点进行预测。

https://zhuanlan.zhihu.com/p/432149359

(待完善,先码几个主要的)

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

https://arxiv.org/abs/2110.06922

:https://github.com/wangyueft/detr3d

这是一篇多视角(多目)3D目标检测的工作,非LiDAR,也不是单目,纯粹是基于nuScenes数据集。本质上,这就是一篇将DETR拓展到3D测试中的工作,所以重点是如何DETR中bipartite loss思想应用于3D任务上。DETR一般的过程是提取图像特征→辅助输入编码→结合queries获得values→得到queries检测结果,并造成损失。DETR3D在此基础上,除基础上bipartite loss扩展到三维空间,引入另一个Deformable DETR的iterative bounding box refinement模块,即构建多层layer对query进行解码。

通过DETR和DETR3D通过对网络结构的比较,我们可以简要了解如何完成这一改进:

DETR

DETR3D

:https://zhuanlan.zhihu.com/p/430198800

:Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection:https://arxiv.org/pdf/2112.04628.pdf 代码链接:https://github.com/Xianpeng919/MonoCon(22.01.07暂未更新)

这是一篇当前单目3D目标检测的SOTA文章(2022.01.07,16.46%)。其网络结构几乎完全承接于CVPR'21的MonoDLE,只是添加了早就被深度学习领域所研究的「辅助学习」(Auxiliary Learning,以下简称AL)模块,以及一些normalization,以提升主流模型的泛化能力。

注意,这里的泛化能力并不是指数据集之间的泛化,而是单纯从域内的训练集-验证集角度而言,解决其潜在的过拟合问题(具体细节在下文讨论)。这样的设计表面上看就是加了模块、加了trick把点数提了上去,实则有许多玄机值得我们讨论,因此还是决定腾出时间来写一下。

本文主要基于KITTI-Object数据集,目前在3D目标检测任务上还有如nuScenes、Waymo等数据集,不过往往重点不在于单目任务,欢迎读者自行探索。

在KITTI-object中,训练集由若干张RGB图像I与其中包含的若干三维包围框(3D bounding box,下称3D bbox)标记 yi、相机标定矩阵PI组成。其中,i表示物体编号,一张图像中可能有多个物体,也可能没有物体。

本文仅做学术分享,如有侵权,请联系删文。

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

扫码添加小助手微信,可

也可申请加入我们的细分方向交流群,目前主要有等微信群。

一定要备注:,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。也请联系。

▲长按加微信群或投稿

▲长按关注公众号

:针对3D视觉领域的五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

标签: 3d影像传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台