买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出了一种基于双阶段训练策略的仿人机器人步态控制方法,首先搭建强化学习稳定行走运动学习框架,并基于搭建的强化学习稳定行走运动学习框架进行双阶段训练,最终实现仿人机器人的步态控制,本发明有效推动了仿人机器人技术的发展,为未来的研究和创新提供新的可能性,通过这些技术效果,本发明不仅推动了仿人机器人技术的发展,还为机器人在更广泛领域的应用提供了新的可能性,特别是在需要机器人与人类密切互动的场景中。
主权项:1.一种基于双阶段训练策略的仿人机器人步态控制方法,其特征在于,包括如下步骤:S1,搭建强化学习稳定行走运动学习框架:S11,将仿人运动控制建模为部分可观察的马尔可夫决策过程,表示为完整状态、部分观测状态和动作分别表示为状态转移概率定义为pst+1|st,at,策略π根据当前观测结果选择动作:at~π·|ot,折扣因子γ用于衡量未来的奖励,奖励函数r定义为rt=rst,at,目标是使累计折扣奖励最大化,表示为Jπ=Eτ~p·|π[∑tγtrst,at;S12,搭建非对称的动作-评论架构,具体如下:搭建演员网络、评论家网络以及估计器网络,设置用于增强过渡阶段的稳定性,并采用模仿学习来直接学习与人类相似的运动的估计器以及用于控制仿人机器人并接受其反馈的信号的PD控制器,估计器与估计器网络连接,估计器网络取ot:t-h=[ot,ot-1,…ot-h]T作为输入,能够输出上下文状态向量zt和估计的线速度估计器包括解码器、编码器以及仿真器,速度分量在仿真器中实际线速度的监督下进行训练,而潜在状态zt则使用变分自编码器的范式下进行训练,潜在状态zt被馈送到解码器中,解码器生成下一帧的观测值,估计器的总损失定义为:其中表示预测线速度的回归损失,表示重建观测值的VAE损失,为估计线速度,在估计的线速度和真实速度vt之间应用均方误差损失,对于变分自编码器损失,通过使用: 其中第一项表示预测的下一个观测值与实际观测值ot+1之间的重建损失,第二项量化潜在变量zt的先验分布和后验分布之间的Kullback-Leibler散度;S13,制定奖励系统,具体如下:奖励体系由几个组成部分构成:r=rgait+rcommand+rroot-renergy+p·rreference其中rgait调节步态模式,rcommand促进速度命令跟踪,rroot确保仿人机器人的基座保持直立姿势和正确的方向,renergy惩罚过度的能量消耗,rreference鼓励遵循参考运动,p属于{0,1}仅在训练阶段一等于1,训练阶段而取消该奖励,详细的奖励函数和权重如下: S2,基于强化学习稳定行走运动学习框架进行双阶段训练:S21,第一阶段-基础步态训练:首先,将仿人机器人在预设的简单地形上进行训练,使用人为设计制作的参考运动,参考运动基于仿人机器人的结构和运动学特性进行设计制作,然后,引入多个奖励函数,鼓励仿人机器人快速学习稳定行走,包括参考运动步态模式、速度命令跟踪、机器人基座的直立姿势和正确方向;S22,第二阶段-适应性步态训练:首先,移除对参考运动的奖励,使仿人机器人在预设的困难地形上学习适应性步态,然后,增加困难地形的比例和爬坡的高度,以训练仿人机器人的适应性;S23,命令式课程学习:采用基于速度命令的课程学习策略,逐步提高仿人机器人的速度跟踪能力,从而在训练过程中实现从低速到高速的平滑过渡;S24,状态估计方法:设计估计器网络,利用历史观测数据来估计仿人机器人的本体速度和隐变量;S25,强化学习:首先,利用强化学习算法来优化仿人机器人的步态控制策略,然后,通过与环境的交互,仿人机器人学习如何在不同困难度的地形上稳定行走;S26,仿真到现实转换:引入了多种随机化和延迟策略,随机化策略包括观测随机化和机器人属性随机化,延迟策略包括动作和扭矩的随机延迟。
全文数据:
权利要求:
百度查询: 松延动力(北京)科技有限公司 一种基于双阶段训练策略的仿人机器人步态控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。