资讯详情

一文看尽 Facebook 3D视觉技术研究进展

本文转载自:机器之心

选自Facebook AI

Facebook 博客详细介绍了博客 3D 内容理解领域的研究进展。

14936600d628cbade4ab4035717c137e.png

要解释现实世界,AI 系统必须理解三维视觉场景。这需要机器人学、导航,甚至增强实际应用。D 图像和视频中描述的场景和对象本身仍然是三维的,真正的智能内容理解系统必须能够从杯子的视频中识别手柄的几何或照片前景和背景中的对象。

不久之前,Facebook 博客介绍了许多新研究项目的细节,以不同但互补的方式推广 3D 目前图像理解领域的最佳水平。相关研究已被研究 ICCV 2019 它利用不同类型和数量的训练数据和输入来解决大量的用例和环境问题 3D 内容理解问题。

Mesh R-CNN 基于大量的新型最佳方法 2D 最准确的现实世界图像预测 3D 形状。该方法采用目标实例分割任务的一般方法 Mask R-CNN 框架可以检测到复杂的对象,如椅腿或重叠家具。

利用 Mesh R-CNN 替代和补充方法 C3DPO,Facebook 在三个基准数据集中首次解释三维几何(涉及超过 14 对象类别)实现了大规模的非刚性三维形状重建。这一结果的实现仅用于 2D 关键点,未使用 3D 标注。

Facebook 提出了学习图像和图像的新方法 3D 形状之间的关关性大大降低了对标记训练样本的需求。这是为更多的对象类别创建的 3D 自监督系统的表征迈出了一步。

Facebook 开发新技术 VoteNet,可输出激光雷达等传感器 3D 图像执行目标检测。大多数传统的目标检测系统依赖于 2D 图像信号,而 VoteNet 仅基于 3D 点云比以前的研究更准确。

基于使用深度学习预测和定位图像中对象的近期进展,以及实施 3D 形状理解(如体素、点云和网格)的新工具和架构。计算机视觉覆盖了大量的任务,而 3D 理解将推进 AI 系统更准确地理解和解释现实世界,并在其中发挥核心作用。

感知系统(如 Mask R-CNN)它是理解图像的强大通用工具。但是,这些系统只能对 2D 图像执行预测忽略了世界 3D 结构。Facebook 利用 2D 设计了感知领域的进步 3D 基于现实世界图像预测,目标重建模型 3D 对象形状,这些图像包含大量的视觉问题,如对象被遮挡、凌乱和多样化的拓扑结构。为这种复杂性稳定的目标检测系统增加第三个维度需要更强的工程能力,而目前的工程框架阻碍了该领域的进步。

Mesh R-CNN 预测输入图像中的对象实例,并推断其 3D 形状。为了捕捉几何和拓扑的多样性,Mesh R-CNN 首先预测粗糙的体素,然后细化以实现准确的网格预测。

要解决这些挑战,Facebook 为 Mask R-CNN 的 2D 目标分割系统增加了网格预测部分,从而构建了网格预测部分 Torch3d。这是一个 PyTorch 库,高度优化 3D 实现该系统的算子。Mesh R-CNN 使用 Mask R-CNN 检测和分类图像中的不同对象,然后使用新的网格预测器推断对象 3D 该预测器由两个步骤组成:体素预测和网格细化。这两个阶段的过程可以优于以前的细粒度 3D 结构预测研究结果。Torch3d 保证 chamfer distance、高效、灵活、模块化地实现了微网格采样、微渲染器等复杂操作,使上述过程顺利进行。

Facebook 利用 Detectron2 实现 Mesh R-CNN,它使用 RGB 作为输入,图像不仅可以检测对象,还可以预测 3D 形状。与 Mask R-CNN 利用监督学习获得强大的实力 2D 感知能力相似,新方法相似 Mesh R-CNN 完全监督学习(即图像和网格对) 3D 预测。在训练阶段,Facebook 使用研究人员 Pix3D 数据集(包括10000个图像和网格对)远小于通常包含数十万图像和对象标记的数据集 2D 基准数据集。

Facebook 评估两个数据集 Mesh R-CNN 所有的性能都取得了优异的。在 Pix3D 数据集上,Mesh R-CNN 它是第一个能够同时检测到所有对象类别的家具场景的完整性,并基于多样性、混乱和阻塞 3D 形状系统。之前的研究主要集中在完美剪裁和未遮挡图像分割部分的训练模型上。在 ShapeNet 在数据集中,体素预测与网格细化相结合 Mesh R-CNN 该方法的性能高于以前的研究 7%。

Mesh R-CNN 系统概览。研究人员用 3D 形状推断增强 Mask R-CNN。

在现实世界中,准确预测和重建无约束场景的形状是提高虚拟现实等新体验的重要一步。但是,收集标记 3D 比较图像数据 2D 图像更复杂、更耗时,这也是 3D 形状预测数据集落后于 2D 数据集的原因。因而,Facebook 探索不同的方法,尝试利用监督和自我监督学习重建 3D 对象。

Mesh R-CNN 相关论文见:https://arxiv.org/abs/1906.02739

在训练过程中无法获得网格及其对应图像时,无需对静态对象或场景进行完整的重建, Facebook 开发一种替代方法——C3DPO 系统(Canonical 3D Pose Networks)。该系统构建 3D 重建关键点模型的结果堪比充分利用 2D 当前关键监督信号获得的最佳结果。C3DPO 帮助我们以弱监督的方式理解 3D 该系统适用于大规模部署。

对于广泛的对象类别,C3DPO 基于检测的 2D 关键点生成 3D 关键点,准确区分视角变化和形状变化。

2D 关键点跟踪对象类别的特定部分(如人体关节或鸟翅),为对象的几何及其变形或视角变化提供完整的线索。 3D 关键点很有用,比如建模 3D 人脸和全身网格,输出更逼真 VR 头像图。与 Mesh R-CNN 类似,C3DPO 使用具有遮挡和缺失值的无约束图像重建 3D 对象。

C3DPO 是第一个利用数千个 2D 重点是重建包含数十万图像的数据集的方法。该模型在三个数据集(超过 14 目前,不同非刚性对象类别的重建精度最高。

代码地址:https://github.com/facebookresearch/c3dpo_nrsfm

该模型有两个重要的创新。首先,给定一组单目 2D 关键点,C3DPO 相应摄像机视角的参数可以预测 3D 关键点的标准位置。其次,Facebook 提出了一种新型的正则化技术 canonicalization,它包含一个辅助深度网络,可以与 3D 一起重建网络学习。该技术解决了正确的问题 3D 由于形式分解导致的视角和形状执行模糊。这两种创新促进了更好数据统计模型的诞生。

以前,这样 3D 重建是不可能的,因为之前基于矩阵分解的方法会带来内存限制。与深度网络不同,以前的方法不能使用「minibatch」机制运行。在建模变形过程中使用多个同步图像,并构建图像和即时图像 3D 重建结果之间的对应关系对硬件要求很高,通常出现在特殊实验室。而 C3DPO 无法部署 3D 也可以在捕获硬件时实现 3D 重建。

C3DPO 相关论文见:https://research.fb.com/publications/c3dpo-canonical-3d-pose-networks-for-non-rigid-structure-from-motion/

该系统学习了参数卷积神经网络(CNN),该网络以图像为输入,预测像素级标准表面图(per-pixel canonical surface map,在模板形状上表示相应位置的像素)。2D 图像和 3D 标准表面图中形状之间的相似颜色表示对应关系。

Facebook 通用对象类别的开发进一步减少 3D 了解系统所需的监控信号。研究人员提出了一种使用无标记图像集的方法,它们只有适当的自动实例分割。他们没有明确地预测图像的底部 3D 将图像中的像素映射到类别级 3D 形状模板的表面。

这种映射不仅能帮助我们分类 3D 在形状背景下理解图像,并提供泛化类似对象之间相应关系的能力。例如,当人们看到下图左侧突出的喙时,他们可以很容易地在右图中找到相应点的位置。

这是因为我们直观上理解这些实例之间的共享 3D 结构。Facebook 将图像像素映射到标准 3D 表面上的新方法有助于学习系统具备这种能力。在评估了该方法在不同实例中迁移相应关系的效果后,研究人员发现其准确性以前没有使用图像底层 3D 自监督结构的方法 2 倍。

当监督信号大幅减少时,模型可以学习的关键因素是:从像素到 3D 表面映射,以从 3D 表面到像素的逆运算,可形成一个完整循环。Facebook 提出的新方法使这一关键要素得以运行,且学习过程中仅需使用免费无标注、具备恰当实例分割结果的公共图像集。得到的系统还可即拿即用,与其他自上而下的 3D 预测方法一道应用,提供像素级 3D 理解。

代码地址:https://github.com/nileshkulkarni/csm/

上述视频中移动车辆的颜色是一致的,这表面该系统对正在移动和旋转的对象生成不变的像素级嵌入。这种一致性可扩展到特定实例,也可用于需要理解不同对象共性的场景中。

Facebook 提出的方法没有直接学习两张图像之间的 2D 对应关系,而是学习 2D 到 3D 的对应,并确保 3D 到 2D 重新投影的一致性,这种一致性循环可作为学习 2D 到 3D 对应关系的监督信号。

例如,如果我们训练一个系统去学习坐在椅子上的正确位置或者握杯子的合适位置,则学到的表征应在系统理解坐在另外一把椅子的合适位置或如何握住另一只杯子的时候依然有用。此类任务不仅能够深化对传统 2D 图像和视频内容的理解,还可以通过迁移对象表征提升 AR/VR 体验。关于标准表面映射的更多信息,参见:https://research.fb.com/publications/canonical-surface-mapping-via-geometric-cycle-consistency/

随着前沿技术(如扫描 3D 空间的自动智能体和系统)的发展,我们需要推进针对 3D 数据的目标检测机制。在这些案例中,3D 场景理解系统需要了解场景中有哪些对象以及它们的位置,以支持导航等高级任务。Facebook 对已有系统进行了改进,提出了高度准确的端到端 3D 目标检测网络 VoteNet,该网络专为点云设计,相关论文《Deep Hough Voting for 3D Object Detection in Point Clouds》获得了 ICCV 2019 最佳论文提名。与依赖 2D 图像信号的传统系统不同,VoteNet 是首批仅依赖 3D 点云数据的系统。该方法比之前研究更加高效,识别准确率也更高。

VoteNet 开源地址:https://github.com/facebookresearch/votenet

VoteNet 在 3D 目标检测任务上的性能超过了之前所有方法,获得了当前最优 3D 检测结果,在 SUN RGB-D 和 ScanNet 数据集上的性能较之之前方法至少提升了 3.7 和 18.4 mAP。VoteNet 优于之前方法的原因是:仅使用几何信息,不依赖标准彩色图像。

VoteNet 设计简单,模型紧凑,效率高,对全景图像的处理速度约为 100 毫秒,内存占用也比之前方法小。该方法以深度相机获得的 3D 点云作为输入,返回对象的 3D 边界框,且标明对象的语义类别。

VoteNet 架构图示。

受经典 Hough voting 算法启发,Facebook 提出了一种投票机制。利用该机制可生成紧邻对象中心的新点,将这些点分组并聚合以生成边界框候选。使用通过深度神经网络学得的投票基本思路,一组 3D 种子点投票竞争对象中心,以恢复对象的位置和类别。

随着 3D 扫描仪在现实中的使用,尤其是在自动驾驶汽车、生物医学等领域的普遍应用,通过定位和分类 3D 场景中的对象来实现对 3D 内容的语义理解变得尤为重要。向 2D 摄像头补充一些更先进的深度相机传感器以方便 3D 识别,这可以帮助我们捕捉到任意给定场景的更稳健视图。使用 VoteNet,系统可以更好地识别出场景中的主要对象,并支持放置虚拟对象、导航和 LiveMap 构建等任务。

3D 计算机视觉领域存在很多开放性研究问题,Facebook 正在试验多个问题陈述、技术和监督方法,正如过去探索推动 2D 理解的最佳方式一样。随着数字世界更多地使用 3D 图像和浸入式 AR/VR 体验等产品,我们需要持续推进更准确理解视觉场景并与其中对象互动的复杂系统的开发。

当 AI 系统与其他感官结合起来时,如触觉和自然语言理解,这些系统(如虚拟助手)可以更加无缝地发挥作用。这一前沿研究帮助我们向着构建和人类一样更直观理解三维世界的 AI 系统更进了一步。

原文链接:https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/

本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现11.自动驾驶中的深度学习模型部署实战12.相机模型与标定(单目+双目+鱼眼)13.重磅!四旋翼飞行器:算法与实战14.ROS2从入门到精通:理论与实战15.国内首个3D缺陷检测教程:理论、源码与实战
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。


同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~

标签: 3d影像传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台