近年来,随着机器人研究的不断发展,机器人需要实现的功能越来越多,相应的行为也越来越复杂。简单的运动控制不能满足需求,特别是对于一些难以获得运动规则的任务,传统的控制方法根本无法实现。这就要求机器人具有更高的学习能力,并与环境形成动态交互,以应对未知情况。 Ananalytical diabolo model for robotic learning and control 原文链接:https://ieeexplore.ieee.org/abstract/document/9561578
机器学习可以解决机器人应用问题,即在传统方法失败时找到有效的策略来完成任务。机器学习算法可分为三类:监督学习、无监督学习和强化学习。其中,强化学习通常被用来处理复杂的决策任务,但往往有巨大的决策空间。强化学习需要不断的尝试和错误。因此,样本的复杂性往往很高,这限制了强化学习在某些场景中的应用。 Ananalytical diabolo model for robotic learning and control 原文链接:https://ieeexplore.ieee.org/abstract/document/9561578
强化学习的一个分支——模仿学习是直接从专家样本中学习。由于高质量的决策行为数据,模仿学习(Imitation Learning)被认为是降低样本复杂度的一种手段。模仿学习又称示教学习(Learning from Demenstration),一个优化的机器人轨迹可以通过示教者的动作和编码回归来获得。模仿学习时,教师根据任务要求进行轨迹教学,并以相应的方式记录教学轨迹。 模仿学习可分为以下过程:人类教学,机器人获取教学轨迹数据,使用学习模型理解,获得控制策略,然后机器人作为执行器控制运动再现行为,实现运动技能学习。
行为获取-获取教学轨迹数据后,首先需要进行预处理、运动分割、降维、滤波、特征提取等处理,以预处理数据作为学习模型输入,为编码做准备。 行为表达-行为表达是一个编码过程。研究如何将观察到的教学行为映射到机器人系统中。有效的表达方法需要具有一定的泛化能力和鲁棒性,能够在新环境中应用所学能力,具有一定的抗干扰能力。 行为再现-对于机器人模仿学习,需要评估模仿性能的度量。然后通过底层运动控制,将学习到的控制策略映射到机器人的执行器空间,实现真正意义的可再现。 在模仿学习中,获取示教数据(运动轨迹)是训练模型的基础,在研究中收集示教数据的方法主要有三种:
1)拖动示教。拖动示教是通过实际移动机器人来演示所需的动作。通过机器人机载传感器记录过程中的状态信息(如关节角度和扭矩等)。),从而为机器学习模型生成训练数据。该方法直观,对用户要求低,广泛应用于轻工业机器人场景。然而,该方法的演示质量取决于操作员动作的灵活性和流畅性。即使是专家操作人员获得的数据也需要平滑或其他后处理。此外,由于形态因素的限制,这种方法对机械臂最有效,但在其他平台(如腿部机器人或灵巧灵巧的手等)使用拖动教学。 2)遥操作。遥控操作是轨迹学习、任务学习、抓取或更先进任务的另一种演示方法。远程操作需要通过手柄、图形界面或其他方式向机器人提供外部输入。目前,多种交互设备(如触觉设备或VR交互设备等)。与拖拉示教不同,遥控操作不需要用户和机器人在同一场景中远程实现。遥控操作的局限性包括额外的工作,如开发输入界面、更长的用户培训过程和外部设备带来的可用性风险。 3)被动观察。被动观察主要是机器人通过观察演示者动作进行学习。演示者利用身体完成任务,使用外部设备捕捉演示者的动作(演示者的身体或操作目标)数据,最有效的数据获取方法是被动光学动作捕获。在这个过程中,机器人不参与任务执行,是作为被动观察者。这种方法对演示者来说最容易,演示过程不需要任何训练。这种方法也适用于具有多自由度的机器人和非拟人机器人(这些场景很难教学)。该方法需要将人类动作映射到机器人可执行的动作中,包括演示过程中的屏蔽、快速移动和传感器噪声。
NOKOV测量动作捕捉系统采用被动红外光学原理,通过捕捉粘贴在人体躯干(或操作目标)上的反射标志点来获取运动数据。NOKOV动作捕捉系统定位精度高,静态重复精度0.037mm,绝对精度可达0.087mm,直线动态轨迹误差可达0.2mm,弧轨误差0.22mm[3]。此外NOKOV在满分辨率下,测量动作捕捉系统的采样频率最高可达380Hz,满足数据采集高运动速度演示的需要。NOKOV工程师有5年以上的项目经验,可以对不同的场地情况给出定制的方案,尽量减少实验过程中的屏蔽影响。 目前,瑞士联邦理工学院等国外研究模仿学习知名机构(EPFL)的LASA德国达姆施塔特大学实验室、意大利技术研究所机器人实验室Prof. Jan Peters作为获取示教轨迹数据的重要手段,团队等。
Arm-hand motion-force coordination for physicalinteractions with non-flat surfaces using dynamical systems: Toward compliantrobotic massage 原文链接:https://ieeexplore.ieee.org/abstract/document/9196593
动作捕捉应用于示教学习案例
研究人员通过模仿学习方法提出了有效的离线编程技术,以实现3C装配线自动化[4]。该过程包括两个阶段,第一阶段,NOKOV测量光学动作捕获设备用于捕获装配过程中的位置信息;第二阶段,通过学习这些演示数据设计机器人控制策略,首先利用基于密度的空间聚类启发轨迹分割算法和基于局部离群因子的异常点检测算法对演示数据进行预处理,然后通过基于高斯混合模型的概率学习策略,从已处理的数据中学习人类装配技能,从而驱动机器人在新环境中完成相同的装配任务。 演示数据由NOKOV通过测量光学动作捕获设备,平台可以跟踪粘贴在操作人员手中的三个反射点,操作简单,可以直观地记录人工组装动作,并利用强化学习的框架提出迭代路径优化技术。通过演示一个简单的拾取和放置(pick-and-place)组装路径验证了迭代路径优化策略的有效性。 手术辅助机器人可以帮助外科医生克服传统手术在操作精度、工作空间、距离和协作方面的困难。为了使手术机器人系统像医生一样实现高质量的自动化操作,建立手术模型是一项重要的基本工作。 为此,重庆邮电大学教师杨德伟以浅组织缝合为建模对象,进行了缝合技能学习和建模研究[5]。为了获取医生缝合演示过程中的数据,研究人员建立了一套缝合演示采集系统。
系统包含一套NOKOV根据DMPs该方法将动作捕获系统收集的轨迹数据分为几个动态过程,并利用教师的操作轨迹数据进行训练DMPs该模型最终验证了该方法的建模能力和对新场景的适应性。 与武汉大学轨迹预测相关的研究包括实时识别、定位和轨迹预测,以球形飞行物体为研究对象。LSTM网络模型,训练和测试模型,解决了球形飞行物体的识别、定位和轨迹预测问题[6]。 实验采用Kinect深度相机和8镜头NOKOV采用测量动作捕捉系统方案搭建系统硬件平台 ROS该系统作为机器人的软件平台,并对系统进行校准。校准对象包括 Kinect 深度相机的内参标定,以及 Kinect 与 NOKOV 测量动作捕捉系统的联合校准。 运动目标识别采用基于混合高斯模型的背景差异法识别运动目标,相平面定位运动目标,获取相应的像素点云信息,采用高斯牛顿法拟合点云纹理获取运动目标空间坐标,结合卡尔曼滤波器优化纹理运动轨迹。
在实验中,研究人员基于实验RNN 运动目标轨迹预测方法NOKOV测量动作捕捉系统收集1000个完整的运动目标轨迹,训练数据集80%的轨迹序列,测试20%的轨迹序列。最后,将建筑网络应用于不规则运动目标乒乓球拍的轨迹预测,证明了建筑网络的泛化能力。