恭喜昆明理工大学张云伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜昆明理工大学申请的专利一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114995479B 。
龙图腾网通过国家知识产权局官网在2025-04-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210673604.7,技术领域涉及:G05D1/49;该发明授权一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法是由张云伟;龚泽武设计研发完成,并于2022-06-13向国家知识产权局提交的专利申请。
本一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法在说明书摘要公布了:本发明公开了一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法,具体控制方法如下:步骤1:建立四足机器人数学模型:计算四足机器人的正运动学模型;步骤2:步态生成:在摆线轨迹进行优化,得到约束优化后的摆线轨迹;步骤3:虚拟模型控制器的设计:建立四足机器人的虚拟模型控制;步骤4:深度强化学习算法的结合:选择和设计状态空间、动作空间与奖励函数;步骤5:虚拟样机模型的训练仿真;本发明利用深度强化学习强大的探索能力,找到最佳的控制器参数,降低了控制器参数的设置难度;本发明提高了传统虚拟模型控制器的控制精度,并且具备一定的抗干扰性能,控制器依然可以精确控制四足机器人的运动。
本发明授权一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法在权利要求书中公布了:1.一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法,其特征在于,具体控制方法如下:步骤1:建立四足机器人数学模型:计算四足机器人的正运动学模型,四足机器人共12个关节,每条腿部由上中下三个腿足部件构成,上关节长L1米,中关节与下关节分别长L2、L3米,得到机器人腿部关节旋转角度与腿足末端的位置关系映射;步骤2:步态生成:在摆线轨迹进行优化,得到约束优化后的摆线轨迹;步骤3:虚拟模型控制器的设计:通过步骤1得到的数学模型,建立四足机器人的虚拟模型控制,并对虚拟模型控制器的参数进行初始化操作;步骤4:深度强化学习算法的结合:选择和设计状态空间、动作空间与奖励函数、并结合步骤3设计的虚拟模型控制器进行强化学习智能体的设计与算法选择;步骤5:虚拟样机模型的训练仿真:对搭建好的虚拟模型进行训练,得到最优的控制策略;所述步骤3中,运动特征参数提取的具体步骤如下,虚拟模型控制器作为基础控制器①雅可比矩阵的计算:虚拟模型控制器需要被控对象的雅可比矩阵,可通过机器人腿部的坐位置x,y,z相对与关节变量分别求导,关节变量记为q1、q2、q3,其物理意义为髋关节、肩关节、膝关节电机的旋转角度;根据得到的机器人腿部正运动学方程6,可得其雅可比矩阵为: ②虚拟力的计算:虚拟模型控制假想存在一种弹簧阻尼部件,输入控制对象的当前位置x,y,z与速度并且需要输入期望参考轨迹xbd,ybd,zbd,摆动相虚拟力f摆计算式为: 式中:kx,ky,kz为虚拟力的弹性系数,bx,by,bz为虚拟力的阻尼系数;支撑相控制和摆动相虚拟力计算方法有所不同,摆动相时虚拟力施加在腿足末端,在支撑相时腿足末端相对于地面的位置变化不大,机身相对于地面接触点运动,施加虚拟力在髋关节位置上,相当于在腿足末端施加-f支,需要注意的是在机器人匀速前向运动的过程中只有前向速度和机体离地高度需要有值,其余一律设置为0;因此可得支撑相的控制法则: ③关节力矩的计算在得到施加在被控对象上的虚拟力后,再根据计算出的雅可比矩阵,可得腿部关节电机摆动相与支撑相的力矩为: 步骤4具体的步骤如下,①状态空间的设计:强化学习基于马尔可夫决策过程,智能体与环境交互过程中获取一系列的状态向量{s1,s2,...sn},选取的状态为四条腿足末端相对于髋关节的位置坐标,机器人机身的翻转角度分别为侧翻、俯仰以及横转,腿足末端位置与参考期望轨迹的误差和,上一个动作输出向量k共计48个状态:②动作空间的设计:动作空间设计输出为设计的虚拟模型控制器的弹簧阻尼系数k和b,每条腿共3个自由度,每条腿共需6个动作输入,共计需24个动作输出;并且为了减少强化学习智能体的学习难度,需要预先试探参数的大致范围,为方便起见可将每条腿部的弹性阻尼系数设置为一致的,在此基础上限制强化学习智能体的动作空间输出范围,避免强化学习智能体寻优空间过大,算法无法收敛;③奖励函数的设计:四足机器人的主要目的是尽可能平稳的向正前方运动,并且维持一定的机体高度,以及在受到外力的干扰下能主动恢复到预先设定的轨迹上,vx为机器人的前向速度,y为机器人侧方向的位移,u为机器人动作的输出,θi为机器人机体在3个维度的翻转角度,Tf为仿真训练过程的最大时长,Ts为仿真过程中的最小步长单位,TsTf为了使得机器人训练过程中能尽可能多的运行更多的步数得到更多的奖励,奖励函数设置如下: ④终止函数的设置强化学习智能体在每一个训练回合时,设置一个终止函数当机器人机身偏离一定的阈值时及时终止训练进行下一个回合的训练,可以降低训练的时间,阈值分别设置为足端轨迹误差总和Esum,机器人机身翻转角度α、β、γ,机器人的侧向偏移y以及机身离地高度z;终止函数设置如下:SisD=Esum≥0.57|α、β、γ≥0.36||y|≥0.4|z≤0.2015满足式19中任意一条件则回合终止;⑤强化学习算法设计多足机器人的状态空间与动作空间均是多维连续空间向量,本发明选择深度确定性策略梯度DDPG方法优化四足机器人虚拟模型控制器参数,该方法包含两个神经网络,分别为演员网络与评论家网络,演员网络actor输入当前环境的状态s,输出智能体动作a,评论家网络critor根据actor网络的动作与当前环境的反应对actor网络的输出做出评价,相应的actor网络根据critor网络的评价改进策略输出,随着回合次数的增多,actor网络的输出越来越符合环境现状,critor网络对actor网络的评价水平越来越精确,最终达到最优策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650093 云南省昆明市五华区学府路253号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。