首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的四足机器人越障控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江南大学

摘要:本发明公开了一种基于深度强化学习的四足机器人越障控制方法,涉及机器人学和深度强化学习控制技术领域,包括搭建仿真环境,建立四足机器人模型,确定机器人各项参数;利用运动重定向技术,将动捕到的数据映射到A1机器人上,强化学习训练;搭建深度强化学习框架;在仿真环境中部署跳跃控制器完成越障动作。本发明提出的基于深度强化学习的四足机器人越障控制方法具有更好的适应性,更强的灵活性,泛化性和鲁棒性。

主权项:1.一种基于深度强化学习的四足机器人越障控制方法,其特征在于:包括:建立四足机器人模型,确定机器人各项参数;利用运动重定向技术,将动捕到的数据映射到机器人上,强化学习训练;所述利用运动重定向技术,将动捕到的数据映射到机器人上,强化学习训练的具体过程包括:对采集到的动捕数据进行清洗,通过滤波去除存在的异常值和噪音;根据机器人的各关节长度信息和采集到的动捕数据获取的每个关节长度信息,通过机器人关节长度与动捕到的关节长度的比值计算缩放比例,将动作的关节长度缩放至与目标机器人相配;关键点选择;根据选择的关键点在数据中进行关键点提取;通过关键点提取,从动捕数据中获取目标位置和姿态,通过逆运动学计算出使得四足机器人足端到达目标位置和姿态的关节角度;所述逆运动学的求解结果如下: ; ; ;其中,l1、l2和l3分别为髋关节、大腿关节和小腿关节长度,px,py和pz为足端在髋关节坐标系下的坐标,m,x,n,k均为过程变量,r为基准坐标系;搭建深度强化学习框架,训练完成跳跃控制器;所述搭建深度强化学习框架的具体步骤为:根据环境决定状态空间S,用于决策和学习,并作为强化学习算法的输入决定下一动作,计算奖励函数,更新算法的策略;根据强化学习算法决定决策动作,用于控制机器人;奖励函数为强化学习算法提供学习方向,函数强化学习算法通过最大化累计奖励来学习最优策略;构建PPO强化学习算法深度神经网络结构;所述深度神经网络结构包括状态价值网络结构和策略网络结构;基于PPO强化学习算法进行控制器训练;所述状态空间S描述为8维向量空间包括: ;其中,为机器人基础高度,θ为机器人在局部坐标系中的角速度,v为基础线速度,ang为基础角速度,pos为关节位置,point为关键点,为跳跃高度,为跳跃信号;所述奖励函数包括:目标高度奖励:;线速度跟踪奖励:;角速度跟踪奖励:;跳跃奖励:;提前终止负奖励:;超出关节限位的负奖励:;部署跳跃控制器完成越障动作。

全文数据:

权利要求:

百度查询: 江南大学 一种基于深度强化学习的四足机器人越障控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。