西南交通大学徐进获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西南交通大学申请的专利一种基于伙伴网络的智能体深度强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116050505B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310154708.1,技术领域涉及:G06N3/092;该发明授权一种基于伙伴网络的智能体深度强化学习方法是由徐进;补金凤设计研发完成,并于2023-02-22向国家知识产权局提交的专利申请。
本一种基于伙伴网络的智能体深度强化学习方法在说明书摘要公布了:本发明公开了一种基于伙伴网络的智能体深度强化学习方法,包括根据智能体控制状态构建不同奖励环境下的指导信号函数,生成伙伴网络所需的经验元组并保存至伙伴网络的经验重放;采用多层长短期记忆网络构建伙伴网络模型,根据历史控制状态和可选动作分别计算智能体对应的指导信号,并更新伙伴网络参数;对智能体对应的指导信号进行衰减处理;构建基于多基线模型的深度Q网络强化学习模型,将衰减后的指导信号与设定决策信号进行融合后对深度Q网络强化学习模型进行训练,生成Q网络需要的经验元组并保存至智能体的经验重放,并更新Q网络参数。本发明通过建立智能体可以感知的指导信号,以减少智能体在探索后期的行动错误,提高智能体的探索稳定性。
本发明授权一种基于伙伴网络的智能体深度强化学习方法在权利要求书中公布了:1.一种基于伙伴网络的智能体深度强化学习方法,其特征在于,包括以下步骤: S1、根据智能体控制状态构建不同奖励环境下的指导信号函数,生成伙伴网络所需的经验元组并保存至伙伴网络的经验重放; S2、采用多层长短期记忆网络构建伙伴网络模型,根据历史控制状态和可选动作分别计算智能体对应的指导信号,并更新伙伴网络参数;具体包括以下分步骤: S21、采用两层长短期记忆网络构建伙伴网络模型; S22、将智能体在时间步t、时间步长l的顺序行动元组()和所有可选动作()输入伙伴网络模型,得到指导信号; S23、判断伙伴网络的经验重放是否大于批量更新阈值;若是,则执行步骤S24;否则不作处理; S24、以最小化网络输出与目标指导信号之间的均方误差作为伙伴网络的目标损失函数,采用批量梯度下降算法更新伙伴网络参数; S3、对智能体对应的指导信号进行衰减处理; S4、构建基于多基线模型的深度Q网络强化学习模型,将衰减后的指导信号与设定决策信号进行融合后对深度Q网络强化学习模型进行训练,生成Q网络需要的经验元组并保存至智能体的经验重放,并更新Q网络参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西南交通大学,其通讯地址为:610031 四川省成都市二环路北一段;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励