一种利用课程学习训练机械臂完成布料折叠任务的方法

导航：龙图腾网> 最新专利技术> 一种利用课程学习训练机械臂完成布料折叠任务的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学

摘要：本发明公开了一种利用课程学习训练机械臂完成布料折叠任务的方法，属于人工智能领域。传统的强化学习算法训练机器人完成任务很少仔细地考虑物理环境参数对任务难度的影响，大多采用领域随机化的方法来克服虚拟环境到真实环境转移的问题，而在面对布料折叠的任务时，环境参数会比较显著地影响机械臂的决策，从而影响机械臂训练过程。本发明提出了一个课程学习方法，从易到难地给机器人安排布料折叠任务，从而加速训练提高训练稳定性。具体地说，本发明会在训练过程中将布料与接触桌面的摩擦随机化，提供一些难度低的任务，并将动摩擦因数作为机械臂的观测量，来加速训练过程。在本发明的训练安排下，与普通训练方法相比，本发明能明显缩短训练时间，提高训练稳定性。

主权项：1.一种利用课程学习训练机械臂完成布料折叠任务的方法，其特征在于，包括：S1，用物理仿真技术搭建虚拟环境，保证机械臂能够与虚拟环境进行交互折叠布料；所述的步骤S1具体为：S11，将布料表示为弹簧质点模型，首先将布料离散成三维中的质点，所述质点间利用弹簧相连接；S12，通过数值求解常微分方程进行物理仿真，其中x为质点位置，t为时间，k为弹簧的劲度系数，Fext为外力；S13，对于机械臂仿真，假设任务开始前机械臂已经抓取布料的特定端点，机械臂移动等同于对该点施加外力进行位移；S2，让机械臂在虚拟环境中交互多个任务周期，在每个周期初，由参数采样器随机调节虚拟环境参数，在每一步交互后收集机械臂在虚拟环境中的交互数据和奖励值作为经验数据；所述的步骤S2具体为：S21，对于机械臂折叠布料任务，定义观测空间为即在布料上选取n个特征点，使用它们的三维欧式坐标作为机械臂的观测量；动作空间为即在每个时间步，机械臂在操作空间下进行一个小位移；目标空间为即用户希望布料上的m个特征点达成的状态，以及当前布料上的m个特征点的状态；S22，基于机械臂折叠布料任务中的观测空间、动作空间、目标空间的定义，对于每个时间步，机械臂会受到如下的奖励：其中，gd为用户希望布料达成的姿态，go为当前布料姿态，δ为误差界限，‖·‖为取模操作，r·为奖励值；S23，当交互步数超过界限或者任务完成后，将布料与机械臂的状态重置为初始状态；S24，环境参数采样器根据课程策略采样新的gd以及新的动摩擦因数μ；S25，对于每个任务周期，将虚拟环境、机械臂初始化，之后机械臂根据当前的观测状态s，依照策略π执行动作a，并获得相应奖励r，完成一次交互后，将六元组st,st+1,a,r,go,gd放入回放缓存中，以供训练步骤使用，持续若干个任务周期；S3，在完成若干任务周期数后，采用HER算法对收集到的经验数据进行增强；所述的步骤S3具体为：对于某一任务周期中的第i步的经验元组sti,st+1i,ai,ri,gio,gd，采用HER算法随机选择该任务周期中某步的已达到目标gjo,j≥i，并根据gjo,gd计算新的奖励函数r′，生成新的经验数据sti,st+1i,ai,r′,gjo,gd加入回放缓存中；S4，基于原有的经验数据和增强后的经验数据，使用SAC算法进行机械臂策略优化；所述的步骤S4具体为：S41，通过SAC算法中的评审神经网络为当前状态下执行某个动作的Q值作评估，其中，为根据当前的观测状态s，依照策略π执行动作a的Q值，为期望，st,at为第t步的状态和动作，ρπ为按照策略执行交互下的状态和动作的分布，γt为折扣因子的t次方，r·为奖励函数，H·为信息焓，s0,a0为初始的状态和动作，α为温度；优化损失函数JQ为：其中，θ为评审神经网络的参数，为回放缓存，为评审神经网络给出的Q值，πφ·为演员神经网络给出的概率分布；S42，通过演员神经网络观测当前状态，选出能够最大化的动作，演员神经网络的优化损失函数Jπ为：其中，φ表示演员神经网络的参数，表示评审神经网络给出的价值函数，DKL表示Kullback-Leibler散度；S43，使用梯度下降算法优化演员与评审神经网络，对于每一个优化步，优化算法从回放缓存中随机采样一组经验sti,st+1i,ai,ri，采用梯度下降方式对演员与评审神经网络进行优化：其中，φT、θT表示第T次迭代的演员与评审神经网络的参数，λφ、λθ表示演员与评审神经网络的学习率，表示求梯度；S5，重复步骤S2-S4，直至SAC算法收敛，获得机械臂布料折叠的策略。

全文数据：

权利要求：

百度查询：浙江大学一种利用课程学习训练机械臂完成布料折叠任务的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种身份认证方法、系统、电子设备及存储介质

下一篇：一种音频信号的处理方法、装置、系统和智能音箱设备

相关技术

一种身份认证方法、系统、电子设备及存储介质

一种音频信号的处理方法、装置、系统和智能音箱设备

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

一种风电场景下超大二维码定位识别系统及方法

用于处理振动信号的方法、计算设备和存储介质

一种基于数字密钥的电子公文管理系统及方法

一种可热封餐盒及其制备方法

一种面向桥梁微形变监测的基于微流道技术的平面电容型微位移传感器

基于比例时滞惯性模糊CG神经网络的保密通信方法

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

用于修复叶片根部的方法

机械相关技术

作业机械_日立建机株式会社_202380031045.2

用于矿山机械的机械臂结构_四川开物信息技术有限公司_202411450165.9

一种工业机械手用防滑机械爪_广东科技学院_202411034329.X

机械手指、机械手及机器人_广电运通集团股份有限公司_202411327419.8

轮式工程机械_日立建机株式会社_202380029353.1

真空机械臂_苏州纳道精运半导体科技有限公司_202411010281.9

一种机械卡子_四川目伦新材料科技有限公司_202420751703.7

旋转式流体机械_大金工业株式会社_202380025478.7

CNC车床机械手_深圳市嘉业精密科技有限公司_202420468235.2

紧固构造和产业机械_纳博特斯克有限公司_201910730182.0

完成相关技术

一种快速自动完成PIO布置的方法、系统及计算机程序_上海盈方微电子有限公司_202411064865.4

一种自动化完成脂肪基质成分富集与清洗的系统_上海韬睿生物科技有限公司_202411056700.2

基于大数据完成预测分析的金融服务平台_湖南长银融资担保有限公司_202411431002.6

一种快速实时协助完成靶场实验课时训练的方法与系统_南京赛宁信息技术有限公司_202410798772.8

利用实时检查完成性监视器的成像系统和方法_通用电气公司_202210607970.2

一种发动机完成品部件自动检测装置及方法_一汽丰田发动机(天津)有限公司_202410843102.3

一种可同时完成马桶S弯管清刷和杀菌消毒的清洁一体刷_上海万枭文化中心_202411316582.4

材料特性值预测方法、学习完成模型生成方法、程序和装置_国立大学法人大阪大学_202380028583.6

在串联连接的电子装置之间提前发送完成的计算系统_三星电子株式会社_202011284417.7

多无人机辅助物联网网络的数量和任务完成时间优化方法_山东师范大学_202211033595.1

臂相关技术

真空机械臂_苏州纳道精运半导体科技有限公司_202411010281.9

空腔式液压臂_深圳精智机器有限公司_202420451128.9

臂环绕可调节机构_苹果公司_202380032962.2

机械臂的轴体连接结构、基座套件及机械臂_重庆金山医疗机器人有限公司_202323662504.3

机械臂的运动控制方法、电子设备及机械臂_珠海格力电器股份有限公司_202411177543.0

伸缩臂架到位检测装置、伸缩臂架组件及作业机械_三一汽车制造有限公司_202410836615.1

摆动机械臂和转运装置_重庆科技大学_202411250052.4

一种多功能护臂_公安部第一研究所_202411399136.4

机械臂末端位移测量工装_鑫君特(苏州)医疗科技有限公司_202420364805.3

一种钩机动臂结构_重庆正源国杰工程机械有限公司_202323443096.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种利用课程学习训练机械臂完成布料折叠任务的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务