一种基于双阶段训练策略的仿人机器人步态控制方法

导航：龙图腾网> 最新专利技术> 一种基于双阶段训练策略的仿人机器人步态控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明提出了一种基于双阶段训练策略的仿人机器人步态控制方法，首先搭建强化学习稳定行走运动学习框架，并基于搭建的强化学习稳定行走运动学习框架进行双阶段训练，最终实现仿人机器人的步态控制，本发明有效推动了仿人机器人技术的发展，为未来的研究和创新提供新的可能性，通过这些技术效果，本发明不仅推动了仿人机器人技术的发展，还为机器人在更广泛领域的应用提供了新的可能性，特别是在需要机器人与人类密切互动的场景中。

主权项：1.一种基于双阶段训练策略的仿人机器人步态控制方法，其特征在于，包括如下步骤：S1，搭建强化学习稳定行走运动学习框架：S11，将仿人运动控制建模为部分可观察的马尔可夫决策过程，表示为完整状态、部分观测状态和动作分别表示为状态转移概率定义为pst+1|st，at，策略π根据当前观测结果选择动作：at～π·|ot，折扣因子γ用于衡量未来的奖励，奖励函数r定义为rt＝rst，at，目标是使累计折扣奖励最大化，表示为Jπ＝Eτ～p·|π[∑tγtrst，at；S12，搭建非对称的动作-评论架构，具体如下：搭建演员网络、评论家网络以及估计器网络，设置用于增强过渡阶段的稳定性，并采用模仿学习来直接学习与人类相似的运动的估计器以及用于控制仿人机器人并接受其反馈的信号的PD控制器，估计器与估计器网络连接，估计器网络取ot：t-h＝[ot，ot-1，…ot-h]T作为输入，能够输出上下文状态向量zt和估计的线速度估计器包括解码器、编码器以及仿真器，速度分量在仿真器中实际线速度的监督下进行训练，而潜在状态zt则使用变分自编码器的范式下进行训练，潜在状态zt被馈送到解码器中，解码器生成下一帧的观测值，估计器的总损失定义为：其中表示预测线速度的回归损失，表示重建观测值的VAE损失，为估计线速度，在估计的线速度和真实速度vt之间应用均方误差损失，对于变分自编码器损失，通过使用：其中第一项表示预测的下一个观测值与实际观测值ot+1之间的重建损失，第二项量化潜在变量zt的先验分布和后验分布之间的Kullback-Leibler散度；S13，制定奖励系统，具体如下：奖励体系由几个组成部分构成：r＝rgait+rcommand+rroot-renergy+p·rreference其中rgait调节步态模式，rcommand促进速度命令跟踪，rroot确保仿人机器人的基座保持直立姿势和正确的方向，renergy惩罚过度的能量消耗，rreference鼓励遵循参考运动，p属于{0,1}仅在训练阶段一等于1,训练阶段而取消该奖励，详细的奖励函数和权重如下： S2，基于强化学习稳定行走运动学习框架进行双阶段训练：S21,第一阶段-基础步态训练：首先，将仿人机器人在预设的简单地形上进行训练，使用人为设计制作的参考运动，参考运动基于仿人机器人的结构和运动学特性进行设计制作，然后，引入多个奖励函数，鼓励仿人机器人快速学习稳定行走，包括参考运动步态模式、速度命令跟踪、机器人基座的直立姿势和正确方向；S22，第二阶段-适应性步态训练：首先，移除对参考运动的奖励，使仿人机器人在预设的困难地形上学习适应性步态，然后，增加困难地形的比例和爬坡的高度，以训练仿人机器人的适应性；S23，命令式课程学习：采用基于速度命令的课程学习策略，逐步提高仿人机器人的速度跟踪能力，从而在训练过程中实现从低速到高速的平滑过渡；S24，状态估计方法：设计估计器网络，利用历史观测数据来估计仿人机器人的本体速度和隐变量；S25，强化学习：首先，利用强化学习算法来优化仿人机器人的步态控制策略，然后，通过与环境的交互，仿人机器人学习如何在不同困难度的地形上稳定行走；S26，仿真到现实转换：引入了多种随机化和延迟策略，随机化策略包括观测随机化和机器人属性随机化，延迟策略包括动作和扭矩的随机延迟。

全文数据：

权利要求：

百度查询：松延动力(北京)科技有限公司一种基于双阶段训练策略的仿人机器人步态控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种胺脱氢酶、基因、重组菌、胺脱氢酶粗酶液、脱氢酶组合物、脱氢酶粗酶液组合物和制备(R)-3-氨基丁醇的方法

下一篇：一种粮储用地上、地下多层楼房仓

相关技术

一种胺脱氢酶、基因、重组菌、胺脱氢酶粗酶液、脱氢酶组合物、脱氢酶粗酶液组合物和制备(R)-3-氨基丁醇的方法

一种粮储用地上、地下多层楼房仓

一种压力波动结合酶联提取制备龙胆提取物的方法

摄像模组和电子设备

一种直流充电桩低压注入绝缘检测电路及其检测方法

一种控制稻田甲烷排放的沼液施用装置及其方法

一种下肢康复智能训练仪

一种学习坐姿及学习休息提醒纠正检测装置

一种防盗门的通风除尘装置

一种人体姿态检测和康复硬件设备结合的康复训练系统及方法

用于发光二极管芯片的互连

一种烧结台车轮偏移的检测方法、装置、存储介质及设备

机器人相关技术

巡检机器人及巡检机器人组件_国家能源集团内蒙古电力有限公司_202420543187.9

清洁机器人_山西嘉世达机器人技术有限公司_202420120004.2

清障机器人_深圳市环水管网科技服务有限公司_202411416794.X

清洁机器人_苏州宝时得电动工具有限公司_202310709898.9

清洁机器人_杭州萤石软件有限公司_202411223046.X

装药机器人_中铁上海设计院集团有限公司_202410972172.9

轨道机器人_北京可安可智能科技有限公司_202411268367.1

小腿结构、下肢组件、机器人、双足机器人和人形机器人_深圳逐际动力科技有限公司_202411146191.2

人形机器人的肘关节装配结构、人形机器人及机器人_深圳逐际动力科技有限公司_202411146469.6

机器人伺服舵轮_长沙万为机器人有限公司_201911274514.5

仿相关技术

具有仿茎叶结构的防护系统_宁波迪创医疗科技有限公司_202110503645.7

一种PC仿石砖烧制装置_安徽坤隆新型建材有限公司_202421113409.X

一种仿铜门用涂漆装置_浙江皇道工贸有限公司_202420679014.X

仿猪皮吸湿超细纤维革及其制备方法_山东同大海岛新材料股份有限公司_202111352892.8

一种仿玉石玻璃的制备方法_武卫兴_202411098704.7

一种新型仿石漆多彩喷枪_宿州市金涂邦气动工具有限公司_202421172618.1

一种复杂仿石材铝板装饰线条_武汉凌云建筑装饰工程有限公司_202420637291.4

基于双层仿射框架的共享图像抠图方法_哈尔滨商业大学_202411004185.3

仿千足虫式爬壁机器人及其控制方法_龙建路桥股份有限公司_202411086870.5

一种仿手工牛肉丸牛肉捶打装置及其方法_常州大学_202411181966.X

步态相关技术

基于内外因多元融合的步态差异性辨识方法及系统_青岛理工大学_202410591594.1

使用组合的步态和形状识别的基于RF感测的人类身份鉴定_高通股份有限公司_202380033708.4

一种基于双阶段训练策略的仿人机器人步态控制方法_松延动力(北京)科技有限公司_202411092178.3

步态分析系统及步态分析方法_华南理工大学_202411084619.5

一种多人步态识别模型_北京信息科技大学_202410643842.2

一种步态检测装置_芯康生物医学科技(杭州)有限公司_202323560523.5

一种步态矫正训练装置_苏州市立医院_202411163676.2

步态数据显示方法、装置、设备、存储介质和系统_深圳安怡健康科技有限公司_202411355024.9

一种基于中枢模式发生器的下肢步态轨迹规划方法_北京航空航天大学_202411069635.7

动物步态评分系统及方法_银川奥特信息技术股份公司_202210361817.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于双阶段训练策略的仿人机器人步态控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务