资讯详情

机械臂抓取学习笔记四

Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for Robotic Grasping Detection

在本文中,我们提出了一个高效的全卷积神经网络模型,用于从n通道输入图像进行机器人抓取姿势估计。提出的网络是一种轻量级生成架构,用于在一个阶段抓取和检测。具体来说,介绍是基于Guassian核抓取是指对训练样本进行编码,体现了最大中心点抓取信心的原则。同时,为了提取多尺度信息,增强特征识别能力,我们在检测系统结构的瓶颈处安装了接收场块(RFB)。此外,结合像素注意力和通道注意力,通过抑制噪声特突出捕获对象特征,自动学习关注不同形状和大小的上下文信息。

  • 虽然捕获对人类来说是一个非常简单的行动,但它仍然是一个具有挑战性的任务,涉及感知、规划和提取等子系统。捕获检测是机器人在非结构化环境中执行捕获和操作任务的基本技能。为了提高机器人捕获的性能,提出了一种新的捕获方法。
  • 在这项工作中,我们使用2-D Guassian检查训练样本进行编码,以强调中心点的抓取信度得分最高。在基于Guassian在抓取表示的基础上,我们开发了一种估计生成系统结构的轻量级机器人抓取姿态。参考人类视觉系统中的感觉野结构,我们将残余块和感觉野块模块结合在瓶颈层,以增强特征识别和鲁棒。此外,为了减少采样过程中的信息丢失,我们在解码过程中整合了低层特征和深度特征。在整合过程中,我们使用多维注意网络抑制冗余特征,突出有意义的特征。
  • 我们提出了一种基于高斯的抓取表达方法,可以显著提高抓取检测精度
  • 在较小的网络参数下,我们开发了轻量级生成系统结构,实现了较高的检测精度和实时运行速度。
  • 嵌入网络瓶颈中的感觉野生块模块,以高其特征识别能力和鲁棒性,开发多维集成网络,抑制冗余特征,增强集成过程中的目标特征。
  • 图1:基于方向矩形的捕获表示方法与基于接触点的捕获表示方法之间的比较。顶部分支使用定向矩形作为捕获表示的模型工作流,底部分支使用接触点捕获表示的模型工作流。

  • 抓取检测的目的是通过抓取物体的视觉信息,为机器人找到合适的抓取姿态,从而为后续的规划和控制过程提供可靠的感知信息,实现成功抓取。抓取是机器人领域的一个广泛研究课题,可以概括为分析和经验。采用几何、运动和动力学中的数学和物理模型进行分析。其理论基础扎实,但缺点在于实际三维世界中机械手与抓取对象之间的模型非常复杂,难以实现高精度模型。相比之下,经验方法并不严格依赖于现实世界的建模方法。一些工作使用已知对象的数据信息来建立模型,以预测新对象的捕获姿势[19]、[20]和[21]。[22]提出了一种新的抓取表达方法,其中一种简化的五维矩形抓取表达方法取代了七维抓取姿势,由三维位置、三维方向和开关距离组成。深度学习方法基于矩形抓取配置,可成功应用于抓取检测任务,主要包括基于分类、回归和检测[23]的方法。

基于分类的方法:

  • 文献[2]提出了第一种基于深度学习的机器人捕获检测方法。作者采用了两个深度网络的两步级联结构,取得了良好的效果。在[24]中,通过采样捕获位置和相邻图像块来估计捕获建议。抓取方向是通过将夹角分成18个盘形夹角来预测的。因为抓取数据集很少,所以需要一个叫做Dex Net 3 2.大型仿真数据库。[25]内置0。在Dex Net2的基础上。0.开发了一个质量协解神经网络(GQ-CNN)对潜在抓握进行分类。虽然网络是在合成数据上训练的,但提出的方法在现实世界中仍然可以很好地工作。此外,在[26]中提出了基于分类的空间注意力网络 spatial transformer network(STN)机器人抓取检测方法。

基于回归的方法:

  • 基于回归的方法是通过训练模型直接预测位置和方向的抓取参数。文献[3]首次提出了基于回归的单次抓取检测方法,其中作者使用AlexNet通过消除搜索潜在抓取过程,提取特征,实现实时性能。结合RGB以及深度数据,在[27]中介绍了一种多模态集成方法。通过融合RGB以及深度特征,该方法直接回归抓取参数,提高了康奈尔抓取数据集上的抓取检测精度。类似于[27],[28]作者使用ResNet集成为主干RGB以及深度信息,进一步提高抓取性能。此外,在[21]中提出了一种基于感兴趣区域(ROI)图形检测方法。在这项工作中,作者回归了ROI在对象重叠挑战场景中,特征的抓取姿势获得了更好的性能。基于回归的方法是有效的,但缺点是更容易学会掌握ground truth的平均值。

基于检测的方法:

  • 许多基于检测的方法都参考了目标检测的一些关键思想,如锚定盒。基于这些锚箱的先验知识,简化了抓取参数的回归。视觉与触觉传感在[29]中融为一体,构建了机器人抓取的混合系统结构。作者使用锚箱对齐轴,并将抓取角度估计为分类问题来预测抓取方向。[29]中使用的抓取角估计方法由[10]扩展。[10]的方法是将角度估计转化为分类问题FasterRCNN的Cornell数据集上实现了较高的抓取检测精度[9]。[12]作者专门设计了一种定向锚箱机制,用于抓取任务,并结合端到端全卷积神经网络提高模型性能。此外,[30]进一步扩展了[12]的方法,并在提花数据集中提出了更好的深层神经网络结构。

基于接触点的抓取表示方法:

  • 机器人抓取检测任务中广泛应用于有向矩形抓取。就实际的板抓取任务而言,抓取器不需要太多的信息来执行抓取动作。文献[14]介绍了一种基于接触点的新的简化抓取表达方法,由抓取质量、中心点、方向角和抓取宽度组成。基于这种抓取表,GGCNN和GGCNN2用于预测抓取姿势,其方法在检测精度和推理速度方面都取得了优异的性能。参考[14],在[15]中,全卷积神经网络采用像素方法提高抓取检测性能。[14]和[15]都以深度数据为输入,在[17]中提出了一种生成剩余卷积神经网络的方法GRASP,该网络输入n通道图像。最近,文献[16]的作者从图像分割中获得了一些实现三指机器人抓取检测的想法。类似于[16],在[31]中开发了一个注重把握合成(橙色)框架的方向GGCNN和Unet模型的提花数据集取得了更好的效果。在本文中,我们提出了一个基础Guassian抓取意味着突出中心点的重要性。我们进一步开发了一种轻量级机器人捕获检测生成架构,在两个公共数据集(康奈尔和雅卡尔)的推理速度和准确性方面表现良好。

机器人抓取系统通常由机器人手臂、传感器、抓取物体和工作空间组成。为了成功地完成抓取任务,不仅要获得物体的抓取姿势,还要规划和控制子系统。在检测部分,我们考虑将机械手限制在工作空间的方向,使其成为2D空间中的感知目标。通过这种设置,可以将大部分抓取对象合理地放置在工作台上,视为平面对象。无需构建三维点云数据,整个抓取系统可以降低存储和计算成本,提高操作能力。平面对象的抓取姿势可视为矩形。由于每个平板夹具的尺寸是固定的,我们使用第一个II-B节中提到的简化抓取表示执行抓取姿势估计。

基于高斯的抓取说:

  • 对于给定的RGB对于图像或不同对象的深度信息,捕获检测系统应学习如何为后续任务获得最佳捕获配置。许多工作,如[29]、[10]和[12],都是基于五维捕获表示来生成捕获姿势。 g={x, y, θ, w, h}

  • 其中,(x,y)是中心点的坐标,θ表示抓取矩形的方向,抓取矩形的重量和高度用4(w,h)表示。矩形盒是目标检测中常用的方法,但不适合抓取检测任务。由于夹具的尺寸通常是已知变量,[14]介绍了高精度实时机器人抓取的简化表示方法。提出了一种新的三维姿态抓取表示方法

        g={p, ?, w, q} 

笛卡尔坐标系的中心点位于中间p=(x,y,z)。?和w分别测量轴周围夹具的旋转角度以及夹具的打开和关闭距离。由于缺乏评价捕获质量的尺度因素,在新的表征中添加了q作为测量捕获成功概率的尺度。此外,二维空间中新捕获的定义可以描述为: g={?p,??,?w,?q} 式中,?p=(u,v)表示图像坐标中的中心点。а表示相机框架的方向。w和?qstill分别表示夹具的开闭距离和抓取质量。当我们知道抓取系统的校准结果时,抓取姿势可以通过矩阵操作转换为世界坐标, g=TRC(TCI(?g)) 其中,trc和tcire将相机帧的换矩阵分别表示为世界帧,二维图像空间表示为相机帧。此外,图像空间中的捕获映射表示: G={Φ, W, Q} ∈R^(3×W×H)

  • 其中,抓取贴图中的每个像素Φ,W,Q用相应的?ν,?W,?Q值填充。这样可以保证通过 ?g在后续推理过程中找到中心点坐标=max?Q?G.在[14]中,作者用1填充中心点周围的矩形区域,表示最高捕获质量,其他像素为0。用这种方法训练模型,学习中心点的最大捕获质量。由于矩形区域中的所有像素都具有最佳捕获质量,因此中心点的重要性不会突出显示的缺陷,从而导致模型的模糊性。在这项工作中中,我们使用二维高斯核来正则化抓取表示,以指示对象中心可能存在的位置,图2所示。一种新的基于高斯分布的小波变换(基于高斯的抓取表示:将二维高斯核应用于抓取质量贴图,以突出其中心点位置的最大抓取质量。(a) 二维高斯函数展开后抓取质量权重分布示意图,以及(b)抓取表示示意图。)
  • 抓取表示为GK,相应的基于高斯的抓取映射定义为:公式
  • 在等式6中,生成的抓取质量图由中心点位置(x0,y0)、参数σx和σy以及相应的比例因子x和y决定。该方法以高斯分布的峰值为抓取矩形的中心坐标。

  • 在本节中,我们将介绍一种用于机器人抓取检测的轻量级生成体系结构。图3(我们的轻量级生成抓取检测算法的结构。I和Conv分别表示输入数据和协方差滤波器。该方法由下采样块、瓶颈层、多维注意融合网络和上采样块组成)显示了我们抓取检测模型的结构。通过下采样块将输入数据转换成尺寸更小、通道更多、语义信息更丰富的特征图。在bottleneck部分,将resnet块和多尺度感受野块模块相结合,提取出更具可分辨性和鲁棒性的特征。同时,利用像素注意子网络和通道注意子网络组成的多维注意融合网络,在上采样前融合浅层和深层语义特征,同时在融合过程中抑制冗余特征,增强有意义特征。最后,基于提取的特征,添加四个特定于任务的子网络,分别预测抓取质量、角度(sin(2θ)和cos(2θ)的形式)和宽度(抓取器的打开和关闭距离)。我们将详细说明拟议抓取网络的每个组成部分。

基本网络架构:

  • 所提出的生成性抓取结构由下采样块、瓶颈层、多维注意融合网络和上采样块组成,如图3所示。下采样块由核大小为3x3的共解层和核大小为2x2的最大池层组成,可表示为等式7。
  • 这项工作中,我们在下采样过程中使用了2个下采样块和2个卷积层。具体而言,第一下采样块由4个卷积层(n=3)和1个最大池层组成,第二下采样层由2个卷积层(n=1)和1个最大池层组成。在下采样数据通过2个卷积层后,它们被送入由3个剩余块(k=2)和1个感受野块模块(RFBM)组成的瓶颈层,以进一步提取特征。由于RFBM由不同尺度的卷积滤波器组成,因此可以获得更丰富的图像细节。可表示为:等式8
  • 瓶颈的输出被送入多维注意融合网络(MDAFN)和上采样模块。由像素注意子网和通道注意子网组成的多维注意融合网络,在浅层特征和深层特征融合过程中,可以抑制噪声特征,增强有效特征。MDAFN将在第IV-C节中进行更详细的说明。在上采样块中,pixshuffle层[32]用于在比例因子设置为2的情况下提高特征分辨率。在这项工作中,多维注意融合网络和上采样块的数量都是2,并且输出可以表示为等式9。

最后的网络层由4个内核大小为3x3的特定于任务的卷积滤波器组成。最终输出结果可按公式10给出。 其中,中心点的位置是最大抓取质量gq的像素坐标,抓取器的打开和关闭距离为gw,抓取角度可通过gangle=arctan(gsin(2θ)gcos(2θ))/2计算。

多尺度感受野阻滞模块:

  • 神经科学方面,研究人员发现人类视觉皮层中存在一种偏心功能,可以调节视觉感受野的大小[33]。这种机制有助于强调中心附近区域的重要性。在这项工作中,我们引入了一种多尺度感受野块(RFB)[34]来组装系统的瓶颈层为了提高提取多尺度信息的能力,增强特征识别能力,本文提出了一种新的检测结构。感受野阻滞模块由多个分支的共价层组成,不同的核对应不同大小的感受野。此外,扩张的卷积层用于控制偏心率,并且由不同感受野的分支提取的特征被重新组合以形成最终表示,如图4所示。在每个分支中,具有特定内核大小的卷积层之后是具有相应扩展率的扩展卷积层,其使用不同内核大小的组合(1x1、3x3、7x1、1x7)。将从四个分支提取的特征串联起来,然后添加到输入数据中,以获得最终的多尺度特征输出。

多维注意融合网络:

  • 当人类观看一幅图像时,我们不会关注图像中的所有内容,而是关注我们感兴趣的内容。视觉系统中的注意机制将有限的注意力集中在重要信息上,从而节省资源并快速获得最有效的信息。在计算机视觉领域,已经开发出一些参数少、速度快、效果好的注意机制[35]、[36]、[37]、[38]。为了从复杂背景中有效地感知抓取对象,设计了由像素注意子网络和通道注意子网络组成的多维注意网络,以抑制噪声特征并突出对象特征,如图5 所示。具体来说,将浅特征和深特征连接在一起,并将融合后的特征反馈到多维注意网络中,在像素级和通道级自动学习融合后特征的重要性。在像素注意子网络中,特征映射F通过一个3x3的协解层,通过协解操作生成一个注意映射。注意图进一步使用sigmoid计算,以获得相应的像素权重分数。此外,SENet[36]被用作通道注意子网,该子网通过全局平均池获得1xC特征,然后使用两个全连接层和对应的激活函数Relu建立通道间的相关性,最后通过sigmoid运算输出特征通道的权重得分。像素权重贴图和通道权重贴图均与特征贴图F相乘,以获得具有降低噪声和增强对象信息的输出

  • 对于包含抓取对象o={O1…On},输入图像i={I1…In},以及相应抓取标签L={L1…Ln}的数据集,我们提出了一个轻量级的完全卷积神经网络来逼近复函数f:I →ˆG,其中F提出了一个带有加权参数、I输入图像数据和ˆG定义抓取预测的神经网络模型。我们通过优化抓取预测ˆG和相应标签L之间的最小误差来训练我们的模型学习映射函数F。在这项工作中,我们考虑了抓取位姿估计作为回归问题,因此smooth L1损失被用作我们的回归损失函数。我们的抓取检测模型的损失函数定义为:式子
  • 其中抓取候选项为N。q、w分别表示抓取质量和抓取器的打开和关闭距离,并且(cos(2θ),sin(2θ))是方向角的形式。在smoothL1函数中,σ是控制平滑区域的超参数,在本工作中,它被设置为1。

标签: trc传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台