买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东北大学
摘要:本发明提供一种基于策略重要性识别和值函数矫正的机器人奔跑控制方法,涉及机器人控制技术领域。本发明使用当前策略的值函数与行为策略的值函数的差代替选择策略的标准;采用策略重要性对策略进行加权评估,即面对不同的策略时,对每种策略进行动态评估,选取一个对长期回报最优的动作;采用Q函数协同矫正的方式来计算目标Q值,进而对当前策略进行多方面的评估。本发明的方法能有效缓解由OOD引起的高估问题,提高智能体在真实环境下的表现性能以及在新环境下的稳定性和鲁棒性,使智能体能够处理更复杂的机器人奔跑任务,如快速变速、急转弯和跳跃等,提高了机器人的整体任务执行能力。
主权项:1.一种基于策略重要性识别和值函数矫正的机器人奔跑控制方法,其特征在于:所述方法使用当前策略的值函数与行为策略的值函数的差代替选择策略的标准;采用策略重要性对策略进行加权评估,即面对不同的策略时,对每种策略进行动态评估,选取一个对长期回报最优的动作;采用Q函数协同矫正的方式来计算目标Q值,进而对当前策略进行多方面的评估。
全文数据:
权利要求:
百度查询: 东北大学 基于策略重要性识别和值函数矫正的机器人奔跑控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。