浅述单目3D目标检测-锐单电子商城

作者慕益云子@知乎

来源丨https://zhuanlan.zhihu.com/p/432135656

编辑丨3D视觉工坊

三维目标检测是一个相对上游、基础但新兴的任务领域。由于自动驾驶和2D如何发展目标展，如何从单目图像中检测三维，或添加一些额外信息bounding box，三维目标检测的主要任务类别。

根据任务输入的不同，三维目标检测可分为三个任务流派：首先，所有流派都输入单目RGB图像和相机参数；额外使用；LiDAR信息（或称velodyne）的激光雷达三维目标检测；多目图像(主要是双目视觉)的额外使用多目三维目标检测；以及不使用其他信息的信息单目三维目标检测。当然，也有一些工作关注无监督的三维目标测试，或者使用其他数据集来研究迁移性能，这些工作也应该根据输入属于相应的任务领域。

这三个任务流派SOTA(2021年11月)评估指标约为82%、52%和15%（AP 3D R40 @0.7 ）

本文重点关注单目三维目标检测领域KITTI 3D Object（http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d）工作的发展脉络。覆盖论文侧重于2018年以来(该数据集成立于2017年，大致是该领域研究兴起的时期)CV顶会，随缘附加一些其他会议的论文。

希望看完这个小综述，大家都能看到单目3D目标测试有初步的理解和理解。作者学识渊博。欢迎大家从批判的角度进行审查。如果你不明白，欢迎讨论和纠正。

☆ 如何使用本综述 ☆

为了方便一些读者只想了解该领域的主要工作，避免本综述过于臃肿，最终决定将每篇论文的介绍分别发送到一篇独立的文章中，本文只提取其概述部分，并附上文章链接，方便感兴趣的读者进一步详细阅读，相当于一个小专栏的形式。

同时，对数据集和评估指标进行了比较technical，因此，决定先介绍主要论文，再介绍这些内容。

发展和分类领域论文

timeline

taxonomy

主要论文

论文主要按时间顺序讲述。个人比较喜欢闭眼复述，所以概述部分不仅仅是对的Abstract或conclusion翻译是一个相对优越的总结，如整体网络流量、亮点和不足，为整个领域的发展做出了巨大贡献。

如果概述后，如果您对文章感兴趣，您可以点击链接名片进入论文的详细部分。如果没有详细的名片，它可能是写的。预计本文将长期建设。欢迎收集，不时回来，并发表评论（可能会加热？

另外，关于如何阅读论文，请参阅我的文章：谈谈CS.CV方向如何阅读论文？（https://zhuanlan.zhihu.com/p/396064894）

分界线：2018年

2018年深度学习领域是什么情况？

2D检测：R-CNN方法时兴、Mask R-CNN（2017 ICCV）刚出生，但如SSD一种单阶段方法离两阶段方法还有一定的精度差距；

新数据集：KITTI 3D Object2017年刚刚发布了数据集。最早KITTI 3D是以2D目标检测 6D组织位置估计任务，所以你会看到它Mono3D这样的开山鼻祖，依然侧重于pose estimation；随着KITTI针对其新任务的系统改进和方法层出不穷，人们逐渐意识到，单目3D它也可以作为一个独立的研究领域。

单目深度：与3D在任务密切相关的单目深度估计领域，MonoDepth这种无监督方法引起了很多关注，也有一些监督方法占据了它SOTA，但是更好DORN、BTS工作还没出来。

如果你对2D测试不太熟悉，这里多说几句:我们知道，事实上，在接下来的几年里，出现了很多单阶段方法（如CenterNet、FCOS等)在参数较少的同时，精度可以与两阶段的方法相媲美，这些方法也是单目3D检测领域影响较大；

同时，之所以提到单目深度，是因为当时人们的观念还在，想预测3D bounding box我们必须有一个简单的观点，如全球深度信息，我们将逐渐感受到这种思想在后续论文中的进步。

Multi-Level Fusion (CVPR 2018)

论文题目：Multi-Level Fusion based 3D Object Detection from Monocular Images

论文链接：https://openaccess.thecvf.com/content_cvpr_2018/CameraReady/2380.pdf

代码链接：未开源

概述

这是该领域的一项非常早期的工作，其主要思想是把2D的目标检测任务拓展到3D上面，并声称提出了一个通用框架，能够将2D作为一个独立的模块，检测被直接迁移。为此，作者设计了一种多级融合在网络的不同阶段，机制可以使深度分支和RGB分支获得信息整合，协助完成各阶段的预测。

一般来说，网络设计的多层次融合机制至少是目前常规的，大致可以看作是多阶段多任务学习机制。就我个人而言，它的亮点实际上是在这种混乱开放的情况下，提出了解耦每个参数的预测，即3D dimension、orientation就像2D同样，直接从特征中预测；3D location可能更关键，更难解耦，需要考虑全局信息，结合特点进行预测。这种基调对后续的研究工作影响很大。

详读链接：https://zhuanlan.zhihu.com/p/432149359

FQNet (CVPR 2019)

GS3D (CVPR 2019)

MonoPSR (CVPR 2019)

Pseudo-LiDAR (CVPR 2019)

D4LCN (CVPR 2020)

CADDN (CVPR 2021)

monodle (CVPR 2021)

(待完善，先码几个主要的)

DETR3D (CoRL 2021)

论文题目：DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

论文链接：https://arxiv.org/abs/2110.06922

代码链接：https://github.com/wangyueft/detr3d

概述

这是一篇多视角（多目）3D目标检测的工作，非LiDAR，也不是单目，纯粹是基于nuScenes数据集。本质上，这就是一篇将DETR拓展到3D测试中的工作，所以重点是如何DETR中bipartite loss思想应用于3D任务上。DETR一般的过程是提取图像特征→辅助输入编码→结合queries获得values→得到queries检测结果，并造成损失。DETR3D在此基础上，除基础上bipartite loss扩展到三维空间，引入另一个Deformable DETR的iterative bounding box refinement模块，即构建多层layer对query进行解码。

通过DETR和DETR3D通过对网络结构的比较，我们可以简要了解如何完成这一改进：

DETR

DETR3D

详读链接：https://zhuanlan.zhihu.com/p/430198800

MonoCon (AAAI 2022)

论文题目：Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection论文链接：https://arxiv.org/pdf/2112.04628.pdf 代码链接：https://github.com/Xianpeng919/MonoCon（22.01.07暂未更新）

概述

这是一篇当前单目3D目标检测的SOTA文章（2022.01.07，16.46%）。其网络结构几乎完全承接于CVPR'21的MonoDLE，只是添加了早就被深度学习领域所研究的「辅助学习」（Auxiliary Learning，以下简称AL）模块，以及一些normalization，以提升主流模型的泛化能力。

注意，这里的泛化能力并不是指数据集之间的泛化，而是单纯从域内的训练集-验证集角度而言，解决其潜在的过拟合问题（具体细节在下文讨论）。这样的设计表面上看就是加了模块、加了trick把点数提了上去，实则有许多玄机值得我们讨论，因此还是决定腾出时间来写一下。

详读链接：https://zhuanlan.zhihu.com/p/455897310

数据集及问题定义

本文主要基于KITTI-Object数据集，目前在3D目标检测任务上还有如nuScenes、Waymo等数据集，不过往往重点不在于单目任务，欢迎读者自行探索。

在KITTI-object中，训练集由若干张RGB图像I与其中包含的若干三维包围框（3D bounding box，下称3D bbox）标记 y_i、相机标定矩阵P_I组成。其中，i表示物体编号，一张图像中可能有多个物体，也可能没有物体。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

资讯详情

浅述单目3D目标检测

☆ 如何使用本综述 ☆

发展和分类领域论文

主要论文

分界线：2018年

Multi-Level Fusion (CVPR 2018)

GS3D (CVPR 2019)

MonoPSR (CVPR 2019)

Pseudo-LiDAR (CVPR 2019)

D4LCN (CVPR 2020)

CADDN (CVPR 2021)

monodle (CVPR 2021)

DETR3D (CoRL 2021)

数据集及问题定义

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

浅述单目3D目标检测

☆ 如何使用本综述 ☆

发展和分类领域论文

主要论文

分界线：2018年

Multi-Level Fusion (CVPR 2018)

GS3D (CVPR 2019)

MonoPSR (CVPR 2019)

Pseudo-LiDAR (CVPR 2019)

D4LCN (CVPR 2020)

CADDN (CVPR 2021)

monodle (CVPR 2021)

DETR3D (CoRL 2021)

数据集及问题定义

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录