一种基于深度强化学习的四足机器人越障控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江南大学

摘要：本发明公开了一种基于深度强化学习的四足机器人越障控制方法，涉及机器人学和深度强化学习控制技术领域，包括搭建仿真环境，建立四足机器人模型，确定机器人各项参数；利用运动重定向技术，将动捕到的数据映射到A1机器人上，强化学习训练；搭建深度强化学习框架；在仿真环境中部署跳跃控制器完成越障动作。本发明提出的基于深度强化学习的四足机器人越障控制方法具有更好的适应性，更强的灵活性，泛化性和鲁棒性。

主权项：1.一种基于深度强化学习的四足机器人越障控制方法，其特征在于：包括：建立四足机器人模型，确定机器人各项参数；利用运动重定向技术，将动捕到的数据映射到机器人上，强化学习训练；所述利用运动重定向技术，将动捕到的数据映射到机器人上，强化学习训练的具体过程包括：对采集到的动捕数据进行清洗，通过滤波去除存在的异常值和噪音；根据机器人的各关节长度信息和采集到的动捕数据获取的每个关节长度信息，通过机器人关节长度与动捕到的关节长度的比值计算缩放比例，将动作的关节长度缩放至与目标机器人相配；关键点选择；根据选择的关键点在数据中进行关键点提取；通过关键点提取，从动捕数据中获取目标位置和姿态，通过逆运动学计算出使得四足机器人足端到达目标位置和姿态的关节角度；所述逆运动学的求解结果如下：；；；其中，l1、l2和l3分别为髋关节、大腿关节和小腿关节长度，px，py和pz为足端在髋关节坐标系下的坐标，m，x，n，k均为过程变量，r为基准坐标系；搭建深度强化学习框架，训练完成跳跃控制器；所述搭建深度强化学习框架的具体步骤为：根据环境决定状态空间S，用于决策和学习，并作为强化学习算法的输入决定下一动作，计算奖励函数，更新算法的策略；根据强化学习算法决定决策动作，用于控制机器人；奖励函数为强化学习算法提供学习方向，函数强化学习算法通过最大化累计奖励来学习最优策略；构建PPO强化学习算法深度神经网络结构；所述深度神经网络结构包括状态价值网络结构和策略网络结构；基于PPO强化学习算法进行控制器训练；所述状态空间S描述为8维向量空间包括：；其中，为机器人基础高度，θ为机器人在局部坐标系中的角速度，v为基础线速度，ang为基础角速度，pos为关节位置，point为关键点，为跳跃高度，为跳跃信号；所述奖励函数包括：目标高度奖励：；线速度跟踪奖励：；角速度跟踪奖励：；跳跃奖励：；提前终止负奖励：；超出关节限位的负奖励：；部署跳跃控制器完成越障动作。

全文数据：

权利要求：

百度查询：江南大学一种基于深度强化学习的四足机器人越障控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：自动适配开关实现低压直流无线智能灯配解网触发的系统、方法、装置、处理器及存储介质

下一篇：一种耐介质聚氨酯材料及其制备方法

相关技术

自动适配开关实现低压直流无线智能灯配解网触发的系统、方法、装置、处理器及存储介质

一种耐介质聚氨酯材料及其制备方法

一种造纸用自动切纸机

一种矿泉水生产用过滤装置

一种高韧性聚乳酸基复合材料及其制备方法和应用

清洁装置

电网的故障处理方法、装置和电网故障检测系统

一种目标高度已知的SAR动目标一维测角定位方法

含氟聚合物、导电浆料、正极极片、二次电池、用电装置

一种供电用绝缘板材旋转搬运机构

一种带压力反馈的对中工装及对中方法

耐极寒低烟无卤阻燃聚烯烃护套、其制备方法和电缆

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的四足机器人越障控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务