资讯详情

【论文笔记】Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment

目录

  • Abstract
  • I. INTRODUCTION
  • II. RELATED WORK
  • III. SYSTEM OVERVIEW
  • IV. ARCHITECTURE
    • A. Robotic Hand Structure
    • B. Grasp Process
    • C. Characteristics of Grasp Process
  • V. DEEP Q-NETWORK STRUCTURE
    • A. Affordance Map
      • 1) Affordance ConvNet
      • 2) Failure cases
    • B. Active Exploration
      • 1) Local patch
      • 2) Paralleled tiny U-Net
    • C. The metric of affordance map
      • 1) Flatness punishment based on Gaussian distribution
      • 2) Interpeak intervals
      • 3) Maximum affordance
      • 4) Reward design
  • VI. EXPERIMENT
    • A. Experiment of DQN Performance in Simulation Environment
      • 1) Evaluation result
      • 2) Training details
    • B. Robotic Experiments
      • 1) Experiment setup
      • 2) Evaluation metric
      • 3) Experiment result
      • 4) Result analysis
  • VII. CONCLUSION

Abstract

任务:在凌乱的场景中捡起物体

设计了一个原因复合机械手可以稳定地抓取物体。吸盘用于首先从杂物中抬起物体,夹具用于相应地抓取物体。

利用(affordance map)为吸盘提供在系统中引入了主动探索机制,以获得良好的观测图。

设计了计算当前可见性图奖励的有效测量方法,并采用深度Q网络()引导机械手积极探索环境,直到生成的可见性图适合抓取。

I. INTRODUCTION

带吸盘的机械手非常流行,广泛应用于机器人抓取任务。这是因为吸盘通常结构简单,对许多不同的物体非常坚固。自密封吸盘阵列大大提高了机器人在不确定环境中的抓取能力。

然而,吸盘对物体的工作机制许多限制。

此外,吸盘的移动方向与力方向的不一致使得抓握不稳定,导致吸盘工作寿命短。

Zeng通过对整个场景的分析,提出了使用方法表示抓取点,大大提高了机器人抓取的精度。

可见性图是显示输入图像中每个像素的置信率的图。

然而,机器人有时是因为环境通常是复杂的和非结构化的很难掌握上面显示的抓取位置。通过积极主动,在适合抓取之前,机器人可以改变环境。

当场景中景中的距离机器人可以主动探索环境主动探索环境,,直到适合抓取。同样,机器人也可以通过,来改变它们的位置。

论文图片1

II. RELATED WORK

本文创新点:

  1. 包括吸盘和夹持器在内的新型复合机械臂设计。
  2. 基于更好的可见性图,设计了一个DQN的积极探索算法。
  3. 结合积极探索算法,复合机械臂取得了良好的性能。
Work Content Ad/Disad-vantage
a multifunctional gripper with a retractable mechanism (1) Switch between suction mode and grasping mode quickly and automatically. (2) Provide a hardware basis for implementing different grasp strategies doesn’t consider the coupling between the two modes
the Suction Pinching Hand two underactuated fingers and one extendable and foldable finger whose fingertip has a suction cup mounted on it. (两个动作不足的手指和一个可伸缩和可折叠的手指,指尖上有一个吸盘) It can grasp various objects stably by using both the suction and pinching at the same time.

机械臂由作者设计:

  1. It has a suction mode and a grasping mode, which can be coupled to work simultaneously and also work separately.(实现了吸盘模式和抓取模式的耦合)
  2. The proposed composite robotic hand is able to close its two fingers to push objects in order to actively explore the environment.(手指并手指,实现推的基本动作)

III. SYSTEM OVERVIEW

  1. 获得场景
  2. 使用基于输入图像图像的计算视觉图。
  3. 提出了一个测量 Φ Φ Φ评估当前提供图纸的质量。
  4. 如果Φ高于一定阈值,复合机械手将用吸盘吸力,然后相应地抓取物体。
  5. 否则,可见性图将被输入DQN,DQN引导复合机械手通过推动前面的物体干扰环境。
  6. 此过程将迭代,直到成功拾取环境中的所有对象。

IV. ARCHITECTURE

A. Robotic Hand Structure

复合机械手由两个平行的手指和一个吸盘组成。

这两个手指对称地分布在底座上。每个手指都有一个马达驱动的,它确保了当手指抓取物体时,两个手指的表面总是平行的。

吸盘系统由一个、一个、一个、两个、一个和一个组成。吸盘放在两个手指的中间。在复合材料机械手的内外分别配备了两个气泵。内部的一个和微型电机用于控制吸盘,而外部的一个与电磁阀驱动与75毫米范围的推杆。

B. Grasp Process

  1. 机械手移动到提升点,当到达提升点时,吸盘将被弹出,以接近物体的表面。
  2. 空气泵在吸盘中产生负压,从而使物体被提升。
  3. 推杆缩回,在两个手指之间抓住物体。
  4. 将手指闭合,以确保抓握的稳定性。
  5. 该对象将被释放。
  6. 释放物体的过程与吸力的过程相反。

C. Characteristics of Grasp Process

当机械手移动时,手指和吸盘施加的力可以协调起来,保证物体被稳定地抓住。

实验证明,复合机械手能够有效、稳定地抓取不同大小和形状的物体。

V. DEEP Q-NETWORK STRUCTURE

A. Affordance Map

它解决了传统抓取策略中要求在抓取前先识别物体的问题。 然而,不可避免的是,有时很难从所获得的可见性图中区分出,特别是在场景比较复杂的情况下。

1) Affordance ConvNet

是一个以为输入和输出视觉图像的网络,这是一个密集的值从0到1的像素级热图。数值越接近1,提升位置就越好。 为了训练的目的,我们场景图像,其中适合抓取的区域被标注。

2) Failure cases

  1. 当高度或颜色相似的物体彼此接近时,很可能被视为一个单一的物体。
  2. 当两个对象部分重叠时,这两个对象可以被视为一个对象。
  3. 当物体的姿势过度倾斜时,可能不适合实际操作。

B. Active Exploration

网络结构基于U-Net,表示像素级的动作。

U-Net是最近提出的一种强大的结构,包括。它在生成像素级语义信息方面具有良好的性能。 为了由于速度的原因而最小化网络的大小,我们将这个结构调整为一个更小的结构,使用一个下采样和上采样,并将RGBD图像的大小调整为的分辨率。

1) Local patch

因此,我们在网络中提出了一种局部补丁的UNet结构,它可以以更少的步数获得更好的场景,并最小化模型大小,以加快计算速度。

Assuming that in the current state, p M p_{M} pM​ is with the highest confidence score in the affordance map ( p M = arg max ⁡ { I a f f } p_{M} = \argmax \{I_{aff} \} pM​=argmax{ Iaff​}). We crop(收集) the around this corresponding pixel with a size of ( 128 × 128 ) (128 × 128) (128×128) and downsample(下采样) it to a size of ( 32 × 32 ) (32 × 32) (32×32) ( 32 = 128 ÷ 4 ) (32 = 128 \div 4) (32=128÷4) before feeding it into our U-Net based network, which greatly reduces the model size.

2) Paralleled tiny U-Net

U-Net能够指示给定图像输入的像素级操作。对于每个动作,它都会在每个位置上输出一个置信度分数。 在本工作中定义了8个具体的动作。机器人可以从8个方向推动物体。 我们使用 O i = i × 45 ° ( i = 0 , . . . , 7 ) O_{i}=i \times 45 \degree (i=0,...,7) Oi​=i×45°(i=0,...,7)来表示方向,推距离是局部补丁大小的一半。 整个网络包含了8个结构相同的U-Net模块。

U-Net被裁剪为一个很小的一个,只一次。它对于我们的输入足够好,适合于具有亚像素级操作位置的场景。这样,DQN的动作空间就会减少,以获得更快的学习速度。

C. The metric of affordance map

设计了一种新的度量 Φ Φ Φ来计算当前提供图的奖励,这对于评估从DQN中获得的每个动作都很有用。

1) Flatness punishment based on Gaussian distribution

最大可见度值出现在有积累或倾斜的区域周围,而在该区域周围的可见度值的分布往往是有方向性的。 检测某一可见点是否是最优的可见点:

  1. 抽取实际场景中可见值最大的点
  2. 生成以这个点为中心的分布,抽取一些列的点,对应位置的值设置为 s i j s_{ij} sij​
  3. 同样以这个点为中心生成高斯分布,同样抽取一些点,对应位置的值为 s i j ∗ s^{\ast}_{ij} sij∗​
  4. 设置两个评估指标 e i j e_{ij} eij​和 σ \sigma σ
  5. e i j = s i j ∗ − s i j v M e_{ij} = \frac{s^{\ast}_{ij}-s_{ij}}{v_{M}} eij​=vM​sij∗​−sij​​
  6. σ = 1 m n ∑ i = 0 m ∑ j = 0 n e i j 2 \sigma = \frac{1}{mn} \sqrt{ \sum^{m}_{i=0} \sum^{n}_{j=0} e_{ij}^{2}} σ=mn1​i=0∑m​j=0∑n​eij2​
  7. 当 σ \sigma σ较小时,说明 s i j ∗ s^{\ast}_{ij} sij∗​和 s i j s_{ij} sij​的相对偏差在很小的波动范围内,因此可见度值在该连通区域的分布分布良好。为了评价 σ \sigma σ的可见性图,引入了一个平面度量 Φ f Φ_{f} Φf​作为 Φ f = e − σ Φ_{f}=e^{−σ} Φf​=e−σ。

2) Interpeak intervals

计算了最接近最大的连接区域的,并选择该区域的中心作为。通过检测在其他小区域比其他点值高的点来找到其他峰值。 最大可见度值点的坐标记为 p M p_{M} pM​。边界框 l l l的长度和宽度 w w w用于表示将被吸取的对象的大小。以 k k k作为可见度图中所有其他峰的个数, P m = { p 0 ⋅ ⋅ ⋅ p k − 1 } P_{m}=\{p_{0}···p_{k−1} \} Pm​={ p0​⋅⋅⋅pk−1​}作为其他峰的坐标集合,定义一个区间度量 Φ d Φ_{d} Φd​。 a = w + l 2 Φ d = min ⁡ { 1 , ∣ ∣ p M − p i ∣ ∣ 2 a } ( i = 0 , 1 , ⋯   , k − 1 ) a = \frac{w+l}{2} \\ Φ_{d} = \min\{1,\frac{||p_{M}-p_{i}||_{2}}{a}\} (i=0,1,\cdots,k-1) a=2w+l​Φd​=min{ 1,a∣∣pM​−pi​∣∣2​​}(i=0,1,⋯,k−1)

3) Maximum affordance

直接来源于ConvNet。

4) Reward design

所以最终的度量 Φ Φ Φ被定义为上述三个指标的加权和。 Φ = λ f × Φ f + λ d × Φ d + λ v × v M Φ = \lambda_{f} \times Φ_{f} + \lambda_{d} \times Φ_{d} + \lambda_{v} \times v_{M} Φ=λf​×Φf​+λd​×Φd​+λv​×vM​ 其中,三个权值满足: λ f + λ d + λ v = 1 → Φ ∈ [ 0 , 1 ] λ_{f} +λ_{d} +λ_{v} = 1 \rightarrow Φ \in [0,1] λf​+λd​+λv​=1→Φ∈[0,1] 如果, 标签: 用于夹持一对连接器的夹具p48j5m密封连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台