Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于硬注意力增强的近端策略优化方法、终端及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明公开了基于硬注意力增强的近端策略优化方法、终端及存储介质,涉及人工智能与控制技术领域。本发明通过硬注意力模块对智能体的观测数据进行整理、排列以及筛选,有效降低系统状态空间复杂度和无关的冗余信息的干扰。另外还采用近端策略优化方法,通过基于全局信息的评价网络与决策网络进行交替迭代训练,评价网络可以对决策网络的习得策略进行准确、合理的评价,提高强化学习方法应用于复杂干扰环境下大规模多智能体协同任务时的学习效率、策略性能以及鲁棒性。从而解决现有技术中大规模多智能体系统状态维度爆炸、单个智能体观测受限的问题,实现在复杂干扰环境中执行大规模群体对抗任务。

主权项:1.一种基于硬注意力增强的近端策略优化方法,其特征在于,所述方法包括:将获取的每一智能体的观测数据输入硬注意力模块;通过所述硬注意力模块根据该智能体的观测数据生成自身、友方以及敌方分别对应的编码特征,根据所述自身的编码特征计算所述友方和所述敌方的编码特征中每一个体的观测数据的注意力分值;根据所述注意力分值对所述友方和所述敌方的编码特征中每一个体的观测数据进行排列和筛选,得到所述友方和所述敌方分别对应的更新编码特征;根据所述自身的编码特征、所述友方的更新编码特征以及所述敌方的更新编码特征,生成聚合特征;将所述聚合特征输入已训练的决策网络,得到该智能体对应的动作决策信息;其中,所述决策网络训练时与预设的评价网络通过近端策略优化方法进行交替迭代训练;所述评价网络用于根据多智能体系统的全局信息输出所述决策网络对应的决策评价信息。

全文数据:

权利要求:

百度查询: 北京理工大学 基于硬注意力增强的近端策略优化方法、终端及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术