首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的仿蛇机器人运动规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京化工大学

摘要:本发明涉及基于强化学习的仿蛇机器人运动规划方法,用于解决当前主流运动规划算法在应用于仿蛇机器人时无法完成由起始点到目标点的运动规划或所规划的路径适用性差的问题。本发明是由神经网络与路径积分强化学习相结合而实现的复杂环境下运动规划新型方法,其主要机理是利用神经网络表征状态空间,以强化学习的方式训练生成可行路径,应用路径平滑算法处理路径获取可靠路径导航点,于各路径导航点间采用路径积分强化学习生成仿蛇机器人步态参数,输入关节以完成路径点导航。该方法实现了复杂环境下仿蛇机器人由起始位置到达目标位置的运动规划,有效提高仿蛇机器人对不同环境的适应能力。

主权项:1.基于强化学习的仿蛇机器人运动规划方法,用于解决复杂环境下仿蛇机器人运动规划问题,使仿蛇机器人能由起始位置无碰撞的到达目标位置,其特征在于,包括以下步骤:S1、将仿蛇机器人置于工作环境,利用传感器采集环境信息并明确任务需求,其中,环境信息包括障碍物的位置和大小,任务需求包括起始位置和目标位置;S2、训练Deep-Q-NetworkDQN深度强化学习网络,DQN包括估计网络Q和目标网络Q',其中,估计网络Q用于估计仿蛇机器人下一时刻的位置,目标网络Q'用于提供仿蛇机器人下一时刻的目标位置;将仿蛇机器人起始位置输入训练完成的DQN中,估计网络Q输出得到下一路径点位置并以该位置再次作为输入不断循环迭代,最终到达目标位置,保存路径点得到初始路径;S3、以Floyd及MA算法对初始路径进行路径平滑,平滑后的路径即为路径导航点序列;S4、以路径导航点序列为输入,使用路径积分算法在各路径导航点间进行路径积分强化学习,输出仿蛇机器人在各路径导航点间运动所应采用的步态参数;S5、最终依托仿蛇机器人步态方程φi,ref=αsinωt+i-1β+γ,输入步态参数计算得到各关节实时角度值输出至仿蛇机器人对应关节,实现复杂工作环境下仿蛇机器人由起始位置到达目标位置的运动规划;步态方程中,fi,ref为关节i在t时刻的关节角,α,ω,β,γ分别对应偏航关节运动的幅值、角频率,相移及相位差;所述步骤S3,包括以下3步:S31、去除初始路径中的相邻共线路径点:对第f个路径点进行判断,若其与第f-1个路径点与第f+1个路径点共线,删除第f个路径点,f∈[2,n-1],n为构成初始路径的路径点数量;S32、去除所剩路径点中的冗余拐点:对第n个路径点至第1个路径点依次进行判断,当前所要执行判断的路径点为第w个路径点,若其与第k个路径点之间的连线未与障碍物发生碰撞,则删除当前所要执行判断的第w个路径点与第k个路径点之间的所有节点,k∈[1,w-1];S33、利用所剩路径点拟合曲线,在拟合曲线上以仿蛇机器人连杆长度等间隔采样得到离散数据点,即为所需的路径导航点序列;所述步骤S4,包括以下4步:S41、在第g-1个路径导航点xg-1,yg-1及第g个路径导航点xg,yg之间的第ξ次迭代训练过程中,首先初始化仿蛇机器人步态参数集为Uξ=[αξ,ωξ,βξ,γξ]T,αξ,ωξ,βξ,γξ分别对应偏航关节运动的初始幅值、角频率,相移及相位差,再由控制变量u生成K条路径并计算每条路径的损失函数,第p条路径τp对应的控制变量分别对应偏航关节运动的幅值、角频率,相移及相位差的增量,以表示四个元素,由均值为0,标准差为的正态分布函数得到,标准差包含四个元素,并能够根据由控制变量up-1生成的损失函数Rτp-1动态调整,计算公式为: 式中,为标准差初始值[0.2,0.5,0.1,0.05],Pτp为路径τp对应的概率,其表达式为: S42、上式中,R=[Rτ1,Rτ2,...,RτK],Rτp为仿蛇机器人进行路径积分强化学习训练时所采用的多目标融合损失函数,损失函数计算由三部分构成,第一部分与目标位置的距离相关,第二部分与路径转角相关,第三部分与障碍物的最近距离相关, 式中,c1,c2,c3为表示各部分所占损失函数权值常量,obstacleDistances为仿蛇机器人与各障碍物最短距离的集合;仿蛇机器人由N个连杆组成,连杆间采用正交关节进行连接,坐标系为迭代训练过程中的基础坐标系,为一次迭代训练过程中以第p个控制变量up训练结束时仿蛇机器人的前进方向,θh即为第h个连杆的角度,其表达式如下: S43、第ξ次迭代过程结束后,第ξ+1次迭代过程中的步态参数集为Uξ+1=Uξ+u*,其增量u*为受奖励函数Rτp影响的K个控制变量的加权平均: S44、多次迭代过程达到仿蛇机器人的步态参数集收敛后,即完成第g-1个路径导航点xg-1,yg-1及第g个路径导航点xg,yg之间的训练;通过上述过程在各路径导航点间进行路径积分强化学习训练,最终得到仿蛇机器人在各路径导航点间运动所应采用的步态参数。

全文数据:

权利要求:

百度查询: 北京化工大学 基于强化学习的仿蛇机器人运动规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。