资讯详情

信号检测与估计理论 pdf_CVPR2020|3D目标检测算法推荐论文源码大盘点

12d7627bcbb9dd12cd1d3eae80b2e096.gif

(微信微信官方账号图像算法,猛击关注,顶部更快接收消息)

本文收集了CVPR 2020 自动驾驶在目标检测相关论文和算法方面仍然很受欢迎,因此驱动3D目标测试论文居多,当然2D目标检测仍然很流行,神经架构搜索也开始应用和目标检测,样本少和跨域研究也值得关注。

先看看3D目标检测相关论文

简介:现有基础LiDAR的3D对象检测器通常专注于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种端到端在线3,在点云序列上运行D视频对象检测器。模型包括空间特征编码组件和时空特征聚集组件。在前一个组件中,提出了一个新颖的支柱信息传输网络(PMPNet)编码每个离散点的云帧。它通过迭代信息从相邻节点收集相关支柱节点的信息,有效地扩大了支柱元素的接收范围。在后一部分中,我们提出了一个时空变压器GRU(AST-GRU)总结时空信息,通过专注的内存门控制机制加强传统ConvGRU。AST-GRU注意空间变压器(STA)注意模块和时间变压器(TTA)可分别强调前景对象并对齐动态对象的模块。实验结果表明,提出的3D大规模视频对象检测器nuScenes最新性能达到基准。

论文地址:

https://arxiv.org/pdf/2004.01389.pdf

开源地址:

https://github.com/yinjunbo/3DVID

本文首次提出了一个通用的、高性能的自动驾驶探测器D物体检测的精度和速度,有效提高了自动驾驶系统的安全性能。目前,该检测器在自动驾驶领域的权威数据集KITTI BEV排名第三。

论文地址:

https://www4.comp.polyu.edu.hk/~cslzhang/paper/SA-SSD.pdf

基于图像的方法和LiDAR方法之间存在差距,所以大多数最先进的3D对象检测器都严重依赖LiDAR传感器。它是由3D在场景中形成表示预测的方式造成的 。我们称之为深度立体几何网络(DSGN)可分辨体积表示形式3的方法D几何体检测3D对象显著识别这种差异,3D有效的几何体为3D规则空间编码3D几何结构。我们可以同时学习深度信息和语义提示。我们首次提供了基于立体声的简单有效的单阶段3D检测管道,可结合端到端学习方法的深度,检测3D对象。以前的方法是基于立体声的3D检测器(在AP大约可以高出10个左右)KITTI 3D基于对象检测排名的类型LiDAR获得可比性能的方法。

论坛地址:

https://arxiv.org/pdf/2001.03398.pdf

源码地址:

https://github.com/Jia-Research-Lab/DSGN

由于缺乏准确的深度信息,从未有过LiDAR3.单个图像D对象检测是一项艰巨的任务。常规2D卷积不适用于此任务,因为它们无法捕获本地对象及其比例信息,这对3D对象检测非常重要。为更好地表达3D根据结构,现有技术通常是基于2D图像估计的深度图转换为伪LiDAR表示,然后应用现有的基于3D点云对象检测器。但其结果很大程度上取决于估计深度图的准确性,导致性能差。在这项工作中,我们不使用伪LiDAR相反,通过提出一个新的局部卷积网络(LCN),称为深度引导动态深度扩展LCN(D ^ 4)改进了基本2D全卷积。4LCN),滤镜及其接收场可以根据图像的深度图自动获得,使不同图像的不同像素具有不同的滤镜。D 4 LCN克服了传统2D卷积的局限性缩小了图像表示和3D点云表示差距。大量实验表明,D 4 LCN在很大程度上优于现有作品。例如,在中等设置下,D 4 LCN相对于KITTI最新水平相对提高到9.1%

论文地址:

https://arxiv.org/pdf/1912.04799.pdf

源码地址:

https://github.com/dingmyu/D4LCN

3D最新的感知进展给计算机视觉带来了独特的挑战。一个基本的挑战是找到3D良好的传感器数据表示形式。处理真正的3D在网格模型采样点的背景下提出最流行的数据(例如PointNet),而忽略了诸如LiDAR扫掠等3D传感数据实际上是2.5D的事实。我们认为将2.5D数据表示为(x,y,z)点的集合会从根本上破坏有关自由空间的隐藏信息。在本文中,我们证明了此类知识可以通过3D基于批次的梯度学习可以有效地恢复射线广播。我们描述了一种通过可见性增强基于体素的网络的简单方法:我们添加了体素化可见性图作为附加输入流。此外,我们还展示了可视性和最新3D检测器的两个关键修改相结合:虚拟对象的合成数据增强和多个时间范围LiDAR聚合扫描时间。在NuScenes 3D在检测基准方面,我们表明,我们可以显著提高最新的3D检测器的整体检测精度。

论文地址:

https://arxiv.org/pdf/1912.04986.pdf

作者主页:

https://www.cs.cmu.edu/~peiyunh/wysiwyg/

源码地址:

https://github.com/peiyunh/wysiwyg

尽管最近的研究推动了深度学习技术的发展,但从3D对象检测仍然是一项艰巨的任务。由于空间屏蔽严重,点密度与传感器之间的距离固有差异,同一对象在点云数据中的外观发生了很大变化。因此,鲁棒的特点是3D对象检测方法中的关键问题。在本文中,我们创新地提出了域自适应等方法来增强特征的鲁棒性。更具体地说,我们弥合了真实场景中感知域和概念域之间的差距。概念域中的特征域从包含丰富详细信息的非屏蔽点云的增强场景中提取。在进行对象感知时,这种域适应方法可模仿人脑的功能。大量实验表明,我们简单有效的方法从根本上提高了3D点云对象检测的性能,并取得了最先进的效果。

论文地址:

https://arxiv.org/pdf/2006.04356.pdf

源码地址:

https://github.com/dleam/Associate-3Ddet

现有基于点云的3D对象检测方法的性能在很大程度上取决于大规模的高质量3D注释。但这样的注释通常很无聊,而且收集起来很贵。半监督学习是减少数据注释问题的好选择,但在3中D对象检测尚未得到充分研究。受最近在半监督图像分类任务中成功实现自组装技术的启发,我们提出了自组装半监督3D对象检测框架SESS。具体来说,为了增强网络在未标记和新看不见数据上的泛化能力,我们设计了一个彻底的扰动方案。此外,为了增强两组的预测,我们提出了三个一致性损失D对象建议之间的一致性有助于学习对象的结构和语义不变性。在SUN RGB-D和ScanNet数据集上的广泛实验证明,SESS感应和感应半监督3D对象检测的有效性。我们的SESS竞争优势只能通过使用50%的标记数据来实现。

论文地址:

https://arxiv.org/pdf/1912.11803v1.pdf

源码地址:

https://github.com/Na-Z/sess

论文地址:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Ahmed_Density-Based_Clustering_for_3D_Object_Detection_in_Point_Clouds_CVPR_2020_paper.pdf

在文中,我们提出了一种名为Disp R-CNN的新颖系统,用于从立体图像中检测3D对象。许多最近的工作通过首先使用视差估计恢复点云,然后应用3D检测器来解决此问题。对于整个图像计算视差图,这是昂贵的并且不能利用特定于类别的先验。相反,我们设计了一个实例视差估计网络(iDispNet),该网络仅预测感兴趣对像上像素的视差,并在获得特定类别的形状之前先进行更精确的视差估计。为了解决培训中视差标注的稀缺性带来的挑战,我们建议使用统计形状模型来生成密集的视差伪地面真相,而无需使用LiDAR点云,这使得我们的系统更广泛地适用。

论文地址:

https://arxiv.org/pdf/2004.03572.pdf

源码地址:

https://github.com/zju3dv/disprcnn

在本文中,我们通过利用自注意力机制和多尺度特征融合捕获多级上下文信息来解决3D对象检测任务。大多数现有的3D对象检测方法可以单独识别对象,而无需考虑这些对象之间的上下文信息。相比较而言,我们提出了多级上下文投票网(MLCVNet),以基于最新的投票网来关联地识别3D对象。我们在VoteNet的投票和分类阶段引入了三个上下文模块,以在不同级别上对上下文信息进行编码。具体地,在投票给它们对应的对象质心点之前,采用补丁到补丁上下文(PPC)模块来捕获点补丁之间的上下文信息。随后,在提议和分类阶段之前合并了一个对像到对像上下文(OOC)模块,以捕获对象候选对象之间的上下文信息。最后,设计了一个全局场景上下文(GSC)模块来学习全局场景上下文。我们通过在补丁,对象和场景级别捕获上下文信息来演示这些内容。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。

论文地址:

https://arxiv.org/pdf/2004.05679.pdf

源码地址:

https://github.com/NUAAXQ/MLCVNet

得益于点云上深度学习的进步,3D对象检测取得了快速进展。仅有点云输入(例如VoteNet),一些最新作品甚至显示了最新的性能。但是,点云数据具有固有的局限性。它们稀疏,缺乏颜色信息,并且经常遭受传感器噪声的影响。另一方面,图像具有高分辨率和丰富的纹理。因此,它们可以补充点云提供的3D几何形状。然而,如何有效地使用图像信息来辅助基于点云的检测仍然是一个悬而未决的问题。在这项工作中,我们以VoteNet为基础,并提出了一种称为ImVoteNet的3D检测架构,专门用于RGB-D场景。ImVoteNet基于融合图像中的2D投票和点云中的3D投票。与先前有关多模式检测的工作相比,我们从2D图像中明确提取了几何特征和语义特征。我们利用相机参数将这些功能提升为3D。为了提高2D-3D特征融合的协同作用,我们还提出了一种多塔训练方案。我们在具有挑战性的SUN RGB-D数据集上验证了我们的模型,将最新结果提高了5.7 mAP。

论文地址:

https://arxiv.org/pdf/2001.10692v1.pdf

摄像头和激光雷达是普通机器人(尤其是自动驾驶汽车)中机器人技术的重要传感器形式。传感器提供补充信息,为紧密融合传感器提供了机会。令人惊讶的是,仅使用激光雷达的方法在主要基准数据集上的性能优于融合方法,这表明文献中存在空白。在这项工作中,我们提出了PointPainting:一种填补这一空白的顺序融合方法。PointPainting通过将激光雷达点投影到仅图像语义分割网络的输出中并将类分数附加到每个点来工作。然后可以将附加的(绘制的)点云馈送到任何仅激光雷达的方法。实验表明,在KITTI和nuScenes数据集上,对三种不同的最新方法(Point-RCNN,VoxelNet和PointPillars)进行了重大改进。PointRCNN的绘制版本代表了KITTI排行榜上用于鸟瞰检测任务的最新技术水平。在消融中,我们研究绘画的效果如何取决于语义分段输出的质量和格式,并演示如何通过流水线将等待时间最小化。

论文地址:

https://arxiv.org/pdf/1911.10150.pdf

准确的3D对象检测是安全自动驾驶的必要条件。尽管LiDAR传感器可以提供对环境的准确3D点云估计,但对于许多设置而言,它们的价格也过高。最近,伪LiDAR(PL)的引入已大大缩小了基于LiDAR传感器的方法与基于廉价立体相机的方法之间的精度差距。通过将2D深度图输出转换为3D点云输入,PL将用于3D深度估计的最新深度神经网络与用于3D对象检测的深度神经网络相结合。但是,到目前为止,这两个网络必须分别进行培训。在本文中,我们介绍了一个基于差异表示表示(CoR)模块的新框架,该框架允许对整个PL管道进行端到端培训。最终的框架与大多数先进的网络兼容,可同时完成所有任务,并与PointRCNN相结合,在所有基准测试中均对PL进行了持续改进,从而在KITTI基于图像的3D对象检测排行榜上获得了最高的入场券。

论文地址:

https://arxiv.org/pdf/2004.03080.pdf

源码地址:

论文地址:

源码地址:

https://github.com/WeijingShi/Point-GNN

我们提出了一种新颖的高性能3D对象检测框架,称为PointVoxel-RCNN(PV-RCNN),用于从点云中进行精确的3D对象检测。我们提出的方法将3D体素卷积神经网络( CNN)和基于PointNet的集合抽象进行了深度集成,以学习更多判别性点云功能。它利用了3D体素CNN的高效学习和替代建议以及基于PointNet的网络的灵活接收范围的优势。具体而言,提出的框架通过新颖的体素集抽像模块将具有3D体素CNN的3D场景汇总为一小组关键点,以节省后续计算并编码轮廓场景特征。3D建议,提出了RoI-grid池,逐步通过具有多个接受域的关键点集抽象,从关键点到RoI-grid点抽象特定特定的功能。与传统的池化操作比例,RoI网格在KITTI数据集和Waymo Open数据集上进行的大量实验表明,我们提出的PV-RCNN仅使用点云就以明显的余量超越了最新的3D检测方法。

论文地址:

https://arxiv.org/pdf/1912.13192.pdf

源码地址:

https://github.com/sshaoshuai/PV-RCNN

源码地址:

https://github.com/swords123/IDA-3D

单眼3D对象检测是自动驾驶中必不可少的组成部分,同时又难以解决,特别是对于那些仅部分可见的被遮挡的样本。大多数检测器将每个3D对象视为一个独立的训练目标,这不可避免地导致缺乏对被遮挡样本的有用信息。为此,我们提出了一种通过考虑配对样本之间的关系来改进单眼3D对象检测的新颖方法。这使我们可以对来自相邻邻居的部分遮挡对象的空间约束进行编码。具体而言,提出的检测器计算出对象位置和相邻对像对的3D距离的感知不确定性的预测,随后通过非线性最小二乘法对其进行优化。最后,一级不确定性感知预测结构和后优化模块专门集成在一起,以确保运行时效率。实验表明,我们的方法在KITTI 3D检测基准上表现出最佳的性能,在性能上远远超过了最先进的竞争对手,尤其是对于硬样品。

论文地址:

https://arxiv.org/pdf/2003.00504.pdf

现代自动驾驶系统严重依赖于深度学习模型来处理点云感官数据。同时,已经证明,深层模型容易受到视觉上无法察觉的扰动的对抗攻击。尽管这对自动驾驶行业构成安全隐患,但由于大多数对抗性攻击仅应用于2D平面图像,因此在3D感知方面的探索很少。在本文中,我们解决了这个问题,并提出了一种生成通用3D对抗对象的方法来欺骗LiDAR检测器。特别是,我们证明了在任何目标车辆的屋顶上放置一个敌对物体,以使车辆完全对LiDAR探测器隐藏,其成功率为80%。我们使用点云的各种输入表示形式,在一组检测器上报告攻击结果。我们还使用数据增强技术进行对抗性防御的初步研究。通过有限的培训数据,这是朝着在看不见的条件下更安全的自动驾驶迈出的一步。

论文地址:

https://arxiv.org/pdf/2004.00543.pdf

标签: 速度传感器gsc200

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台