Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国运载火箭技术研究院李博遥获国家专利权

恭喜中国运载火箭技术研究院李博遥获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国运载火箭技术研究院申请的专利一种面向多作战单元协同决策的多智能体增强学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114358141B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111530475.8,技术领域涉及:G06F18/2415;该发明授权一种面向多作战单元协同决策的多智能体增强学习方法是由李博遥;郑本昌;路鹰;黄虎;惠俊鹏;陈海鹏;王振亚;李君;阎岩;范佳宣;李丝然;何昳頔;张佳;任金磊;吴志壕;刘峰;范中行;张旭辉;赵大海;韩特;肖肖设计研发完成,并于2021-12-14向国家知识产权局提交的专利申请。

一种面向多作战单元协同决策的多智能体增强学习方法在说明书摘要公布了:一种面向多作战单元协同决策的多智能体增强学习方法,包括步骤如下:针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模;采用事后目标转换方法增加有效训练样本数量,实现多智能体增强学习模型的优化收敛;以团队全局任务奖励为基准,以各作战单元具体动作奖励作为反馈信息,构建奖励函数;根据不同作战方案生成多种对手策略,利用奖励函数通过海量模拟博弈对抗对多智能体增强学习模型进行训练。本发明解决了现有技术中存在的红蓝方博弈对抗多作战单元决策协同性低、有价值训练样本难获取等问题。

本发明授权一种面向多作战单元协同决策的多智能体增强学习方法在权利要求书中公布了:1.一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于,包括步骤如下:针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模;采用事后目标转换方法增加有效训练样本数量,实现多智能体增强学习模型的优化收敛;以团队全局任务奖励为基准,以各作战单元具体动作奖励作为反馈信息,构建奖励函数;根据不同作战方案生成多种对手策略,利用奖励函数通过模拟博弈对抗对多智能体增强学习模型进行训练;多智能体增强学习模型的构建过程如下:搭建红蓝方博弈对抗场景;对红蓝方博弈对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;针对协同任务决策点,建立多智能体增强学习模型;确定协同任务决策点的状态空间的方法如下:将博弈对抗场景整体态势信息和作战单元局部观测信息作为状态输入,通过固定部分状态输入取值进行缺省验证,剔除无用或起反作用状态,确定任务决策点的关键状态空间;采用事后目标转换方法增强有效训练样本数量的具体方法为:在每个回合迭代训练中,从经验池内根据采样概率值选择样本数据,将样本中智能体未能实现的原始任务目标更改为其在某一时刻能够达到的状态,构造有效正样本用于模型训练;采样概率值的计算公式如下: 其中,pi=|δi|+ε表示第i个样本的优先级,δi表示第i个样本的时序差分误差,ε表示随机噪声,防止采样概率为0;α用于调节优先程度,Pi为第i个样本数据的采样概率;利用奖励函数通过模拟博弈对抗对多智能体增强学习模型进行训练的具体方法为:根据不同作战方案构建蓝方策略库,每隔设定的训练周期,利用红方在线决策模型对蓝方策略库进行扩充,利用奖励函数通过模拟博弈对抗完成红方多智能体增强学习模型的进化训练。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国运载火箭技术研究院,其通讯地址为:100076 北京市丰台区南大红门路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。