Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 无锡学院汪磊获国家专利权

无锡学院汪磊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉无锡学院申请的专利一种盲六足机器人运动策略的训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117340876B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311273174.0,技术领域涉及:B25J9/16;该发明授权一种盲六足机器人运动策略的训练方法是由汪磊;李瑞文;冯仪杉;皇甫紫薇;陈逸阳;马萍;董良新;魏梦寒设计研发完成,并于2023-09-27向国家知识产权局提交的专利申请。

一种盲六足机器人运动策略的训练方法在说明书摘要公布了:本发明公开了一种盲六足机器人运动策略的训练方法,属于六足机器人运动控制的技术领域;该方法基于盲六足机器人的内传感器获取本体感知信号,该信号可以满足盲六足机器人正常行走的最低要求,并可忽略恶劣天气的影响。使用近端策略优化算法训练盲六足机器人的运动策略,验证了盲六足机器人的马尔可夫性证明算法的可行性。本发明通过Mujoco建立了盲六足机器人在非结构化地面运动的环境,并在环境中通过强化学习算法训练得到运动策略,使盲六足机器人能根据当前环境做出自适应运动;证明该方法能使盲六足机器人在恶劣天气影响下也能稳定行走和简单避障,并通过非结构化地面。

本发明授权一种盲六足机器人运动策略的训练方法在权利要求书中公布了:1.一种盲六足机器人运动策略的训练方法,其特征在于,包括以下步骤:S1、建立盲六足机器人和野外山地的模拟环境;S2、获取模拟环境的环境数据,所述环境数据为盲六足机器人的本体感知信号;S3、将环境数据作为输入,构造策略网络模型;S4、构建近端策略优化算法,通过优化算法来训练策略网络;所述近端策略优化算法的构建过程为:S41、定义马尔可夫决策过程:在强化学习中,将智能体与环境的交互过程建模为一个马尔可夫决策过程;在智能体的策略π下,智能体从状态st转移到状态st+1的概率,完全由状态st和动作at决定,则该条件概率为pπrt,st+1|at,st;其中,奖励rt是t时刻智能体执行一次动作at后获得的环境反馈;S42、定义回报函数:使用折扣系数γ,定义在每个时间步长t的回报Rt,表示从当前时间步开始的未来奖励的累积;则t时刻的回报Rt为: 式中,折扣系数γ决定了未来的奖励对当前状态的影响,对未来的奖励起到衰减的作用;其中,强化学习的学习过程为最大化回报期望J的过程,回报期望J的表达式为: 式中,表示在策略π下对动作a进行期望操作,Ra表示动作a所获得的即时奖励;S43、定义策略函数和价值函数,并使用贝尔曼方程进行估计:引入策略函数πθ,用于拟合策略概率分布,以及价值函数Vπ和动作价值函数Qπ,用于评估策略在给定状态和动作下的价值;其中,价值函数Vπ的表示式为: 动作价值函数Qπ的表示式为: 使用贝尔曼方程来迭代估计价值函数Vπ和动作价值函数Qπ;将下一时刻的价值函数记为将下一时刻的动作价值函数记为则: 使用策略网络πθ来拟合具体的策略概率分布,使用策略梯度公式来对策略参数进行优化,优化的目标是使智能体的策略概率分布能够最大化奖励,策略梯度公式的表达式为: S44、定义优势函数:使用优势函数Aa,s来衡量特定动作对于给定状态的价值,优势函数Aa,s的表达式为:Aπst,at=Qπst,at-Vπst8;S45、引入近端优化法则:通过设定一个置信区间,限制新策略和旧策略之间的KL散度,以缓解策略梯度波动,并增加根据当前策略估计的具有更高优势值的动作被选择的概率;设更新策略后的新策略为π′at|st;θ′,则使用重要性采样得到的损失函数的表达式为: 使用KL散度来衡量新旧策略的概率分布相似度,则优化过程的限制条件为: S46、构建损失函数:使用拉格朗日乘数法,将公式9和公式10整合成一项,构建改进后的损失函数L′,改进后的损失函数L′的表达式为: 其中,β是一个拉格朗日乘数;当βπat|st;θ和π′at|st;θ′接近时,用rt代表同一个动作在新策略下的概率和老策略下的概率的比值,再用一个参数∈将概率的比值rt控制在1-∈,1+∈的范围内,则损失函数的最终表达式为: S47、使用梯度下降法更新策略:通过对损失函数进行梯度下降优化,更新策略πθ;S5、构建奖励函数对盲六足机器人进行评估,为优化算法提供反馈信号,以指导策略网络的训练和参数优化。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人无锡学院,其通讯地址为:214105 江苏省无锡市锡山区锡山大道333号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。