Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 国网河南省电力公司洛阳供电公司王子琦获国家专利权

国网河南省电力公司洛阳供电公司王子琦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉国网河南省电力公司洛阳供电公司申请的专利基于分层深度强化学习模型的机器人行为决策方法及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115409158B

龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211052755.7,技术领域涉及:G06N3/092;该发明授权基于分层深度强化学习模型的机器人行为决策方法及设备是由王子琦;王亮;寇启龙;邵奇;游丹;刘智;周磊月;王伯恩;曹冠男;刘然设计研发完成,并于2022-08-31向国家知识产权局提交的专利申请。

基于分层深度强化学习模型的机器人行为决策方法及设备在说明书摘要公布了:本申请提供一种基于分层深度强化学习模型的机器人行为决策方法及设备,本申请通过模拟人脑的分层组织机理,提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型,该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中,当其处于稀疏奖励的环境中时,上层模块根据智能体与环境的交互情况,为底层模块设定子目标,同时,上层模块可以感知环境并预测智能体的状态转移。此外,预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度,在底层模块中,设计了一个降维网络来编码和映射状态信息,因此,该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

本发明授权基于分层深度强化学习模型的机器人行为决策方法及设备在权利要求书中公布了:1.基于分层深度强化学习模型的机器人行为决策方法,其特征在于,所述方法包括: 获取当前状态信息和目标任务; 构建分层深度强化学习模型,所述分层深度强化学习模型包括顶层模块和底层模块,顶层模块包括决策管理网络和目标导向管理机制;底层模块包括降维网络、奖励处理机制和深度Q网络; 基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行; 获取下一时刻状态信息,并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列,所述顶层模块基于所述当前状态转移序列得到奖励预测值; 重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到奖励增益值,利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型,得到优化学习后的所述分层深度强化学习模型,包括: 将所述当前状态转移序列输入所述决策管理网络得到奖励预测值; 执行所述行为决策后获取环境奖励信号; 重复上述步骤直至机器人发生撞击,获取本回合得分以及完成本回合的目标任务之前的所有回合得分,将所有回合得分输入管理目标导向机制得到奖励增益值; 将得到的所有状态转移序列、奖励预测值、奖励增益值、环境奖励信号放入经验池中储存并更新; 利用经验池中的数据不断训练所述分层深度强化学习模型,得到优化学习后的所述分层深度强化学习模型,包括: 利用所述经验池中的所有所述状态转移序列、奖励预测值以及环境奖励信号共同做损失函数,通过反向传播优化所述决策管理网络的参数; 从所述经验池中利用状态转移序列得到的奖励预测值、奖励增益值训练优化深度Q网络得到优化学习后的所述分层深度强化学习模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网河南省电力公司洛阳供电公司,其通讯地址为:471000 河南省洛阳市西工区凯旋西路12号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。