江苏科技大学吴万毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏科技大学申请的专利基于改进PPO算法的双足机器人行走稳定性优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114839878B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210493695.6,技术领域涉及:G05B13/04;该发明授权基于改进PPO算法的双足机器人行走稳定性优化方法是由吴万毅;刘芳华;孙天圣;邵佳伟;狄澄;王政设计研发完成,并于2022-04-27向国家知识产权局提交的专利申请。
本基于改进PPO算法的双足机器人行走稳定性优化方法在说明书摘要公布了:本发明公开了一种基于改进PPO算法的双足机器人行走稳定性优化方法,具体为通过在神经网络中引入长短时记忆,将前阶段样本信息有选择地保留以拟合后续样本的预测,并在动作网络中加入注意力机制对输入特征进行动态自适应加权,拟合不同时间步的状态信息对后续采取动作的可变权重依赖,得到一种改进的PPO算法,能解决不同环境下双足机器人的步行控制问题包括仿真训练的参数调节和步行运动的稳定性。所述采用的仿真机器人行走环境采用OpenAI开发的Gym里面的Bipedalwalker‑v3环境;所述预训练控制参数利用改进的PPO算法进行训练调节;所述双足机器人步行运动的稳定性通过训练的控制器实现。
本发明授权基于改进PPO算法的双足机器人行走稳定性优化方法在权利要求书中公布了:1.一种基于改进PPO算法的双足机器人行走稳定性优化方法,其特征在于包括以下步骤: 步骤一:改进的PPO算法神经网络模型的搭建; 建立动作网络模型和评价网络模型,动作网络采用一层全连接层,一层LSTM层以及一层MHSA,评价网络采用两层全连接层和一层LSTM层; 步骤二:建立双足机器人运动模型,选择仿真实验环境; 对双足机器人整体结构进行简化,将其简化成包括腰部,两个大腿、两个小腿的简易结构,简易结构包括两个髋关节和两个膝关节,四个关节均为旋转关节,建立四自由度的双足机器人运动模型,选择OpenAIGym中的工具包作为仿真实验环境; 步骤三:双足机器人控制参数预训练; 用搭建的神经网络模型处理仿真实验环境中双足机器人所传递的环境信息,并反馈,验证神经网络搭建的可行性;改进PPO算法的强化学习模型的超参数包括超参数包括影响收敛速度和收敛值的学习率η,用于计算过去动作奖励对现在动作奖励的影响的折扣因子γ,有助于加快学习速度的λ,影响梯度裁剪范围的Epsilonε,一次训练采取的样本数batch_size,最大步数t; 步骤四:双足机器人的步行运动稳定性分析; 通过在仿真环境中的训练以及超参数的调节,用所得到的双足机器人动作的滑动平均的奖励值证明其运动的稳定性,同时验证改进网络的可行性; 动作网络模型的搭建及训练包括以下步骤: S1:依次建立输入层一1、全连接层一2、长短时记忆层一3、多头注意力机制层4、输出层一5; S2:将环境信息s经过输入层一1输入到全连接层一2,经全连接层一2输出后进入长短时记忆层一3,然后将经过长短时记忆层一3输出后的值,输入多头注意力机制层4,获得带有权重差异的状态信息高维表示,拟合不同时间步的状态信息对后续采取动作可变权重依赖,最后经过一个输出层一5输出; S3:输出层一5输出得到两个值,一个是均值,一个是方差,然后利用这两个值构建正态分布,再通过这个动作概率分布随机采样出来一个机器人的动作,随机采样动作通过双足机器人运动模型执行; S4:将存储的所有状态s组合输入新旧策略θ’和θ下的动作网络,得到不同策略下的机器人动作概率的正态分布1和正态分布2,将存储的所有动作组合为actions输入到正态分布1和正态分布2,得到每个actions对应的prob1和prob2,然后用prob1除以prob2得到重要性权重,即ratio;利用重要性采样修正不同策略θ和θ’的两个动作分布之间的差异,求动作网络的损失函数: Jθ’θ=E[minr,clipr,1-ε,1+εAθ’st,at], 利用梯度更新公式来更新动作网络; 双足机器人执行动作网络模型输出的多回合的随机采样动作,将从环境信息的初始状态s0开始与环境交互至最终状态st的样本看作一个轨迹,用τ表示,τ:s0,a0,s1,a1...st-1,at-1,st,在一个轨迹训练中,机器人判断当前环境的状态st∈S,根据策略π:S→A,采取动作at∈πst,得到奖励r并获得下一个状态st+1;策略优化的目标是在状态st,采取动作at后,直到期望累计回报价值Gt最大化时回合结束,其中: 评价网络模型的搭建及训练包括以下步骤: 第一步:依次搭建输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10; 第二步:将轨迹τ中的所有的状态s输入至价值网络,依次经过价值网络的输入层二6、全连接层二7、全连接层三8、长短时记忆层二9、输出层二10,得到双足机器人在一个轨迹中所有状态所对应的状态价值Vst: 第三步:将Gt看作机器人执行at后到达状态st+1后,采取不同的动作所得的期望的累计奖励的平均值,即Gt=rt+γVst+1,得到优势函数Aπst,at=Gt-Vst,对优势函数采用一阶时间差分估计,得到其中: δt=rt+γVst+1-Vst,从而求评价网络的损失函数再反向传播更新价值网络,其中N是batch_size的大小,T是步数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏科技大学,其通讯地址为:212100 江苏省镇江市丹徒区长晖路666号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。