买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学
摘要:本发明公开了一种利用课程学习训练机械臂完成布料折叠任务的方法,属于人工智能领域。传统的强化学习算法训练机器人完成任务很少仔细地考虑物理环境参数对任务难度的影响,大多采用领域随机化的方法来克服虚拟环境到真实环境转移的问题,而在面对布料折叠的任务时,环境参数会比较显著地影响机械臂的决策,从而影响机械臂训练过程。本发明提出了一个课程学习方法,从易到难地给机器人安排布料折叠任务,从而加速训练提高训练稳定性。具体地说,本发明会在训练过程中将布料与接触桌面的摩擦随机化,提供一些难度低的任务,并将动摩擦因数作为机械臂的观测量,来加速训练过程。在本发明的训练安排下,与普通训练方法相比,本发明能明显缩短训练时间,提高训练稳定性。
主权项:1.一种利用课程学习训练机械臂完成布料折叠任务的方法,其特征在于,包括:S1,用物理仿真技术搭建虚拟环境,保证机械臂能够与虚拟环境进行交互折叠布料;所述的步骤S1具体为:S11,将布料表示为弹簧质点模型,首先将布料离散成三维中的质点,所述质点间利用弹簧相连接;S12,通过数值求解常微分方程进行物理仿真,其中x为质点位置,t为时间,k为弹簧的劲度系数,Fext为外力;S13,对于机械臂仿真,假设任务开始前机械臂已经抓取布料的特定端点,机械臂移动等同于对该点施加外力进行位移;S2,让机械臂在虚拟环境中交互多个任务周期,在每个周期初,由参数采样器随机调节虚拟环境参数,在每一步交互后收集机械臂在虚拟环境中的交互数据和奖励值作为经验数据;所述的步骤S2具体为:S21,对于机械臂折叠布料任务,定义观测空间为即在布料上选取n个特征点,使用它们的三维欧式坐标作为机械臂的观测量;动作空间为即在每个时间步,机械臂在操作空间下进行一个小位移;目标空间为即用户希望布料上的m个特征点达成的状态,以及当前布料上的m个特征点的状态;S22,基于机械臂折叠布料任务中的观测空间、动作空间、目标空间的定义,对于每个时间步,机械臂会受到如下的奖励: 其中,gd为用户希望布料达成的姿态,go为当前布料姿态,δ为误差界限,‖·‖为取模操作,r·为奖励值;S23,当交互步数超过界限或者任务完成后,将布料与机械臂的状态重置为初始状态;S24,环境参数采样器根据课程策略采样新的gd以及新的动摩擦因数μ;S25,对于每个任务周期,将虚拟环境、机械臂初始化,之后机械臂根据当前的观测状态s,依照策略π执行动作a,并获得相应奖励r,完成一次交互后,将六元组st,st+1,a,r,go,gd放入回放缓存中,以供训练步骤使用,持续若干个任务周期;S3,在完成若干任务周期数后,采用HER算法对收集到的经验数据进行增强;所述的步骤S3具体为:对于某一任务周期中的第i步的经验元组sti,st+1i,ai,ri,gio,gd,采用HER算法随机选择该任务周期中某步的已达到目标gjo,j≥i,并根据gjo,gd计算新的奖励函数r′,生成新的经验数据sti,st+1i,ai,r′,gjo,gd加入回放缓存中;S4,基于原有的经验数据和增强后的经验数据,使用SAC算法进行机械臂策略优化;所述的步骤S4具体为:S41,通过SAC算法中的评审神经网络为当前状态下执行某个动作的Q值作评估, 其中,为根据当前的观测状态s,依照策略π执行动作a的Q值,为期望,st,at为第t步的状态和动作,ρπ为按照策略执行交互下的状态和动作的分布,γt为折扣因子的t次方,r·为奖励函数,H·为信息焓,s0,a0为初始的状态和动作,α为温度;优化损失函数JQ为: 其中,θ为评审神经网络的参数,为回放缓存,为评审神经网络给出的Q值,πφ·为演员神经网络给出的概率分布;S42,通过演员神经网络观测当前状态,选出能够最大化的动作,演员神经网络的优化损失函数Jπ为: 其中,φ表示演员神经网络的参数,表示评审神经网络给出的价值函数,DKL表示Kullback-Leibler散度;S43,使用梯度下降算法优化演员与评审神经网络,对于每一个优化步,优化算法从回放缓存中随机采样一组经验sti,st+1i,ai,ri,采用梯度下降方式对演员与评审神经网络进行优化: 其中,φT、θT表示第T次迭代的演员与评审神经网络的参数,λφ、λθ表示演员与评审神经网络的学习率,表示求梯度;S5,重复步骤S2-S4,直至SAC算法收敛,获得机械臂布料折叠的策略。
全文数据:
权利要求:
百度查询: 浙江大学 一种利用课程学习训练机械臂完成布料折叠任务的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。