复旦大学王衡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利一种结合模仿学习和强化学习的空战智能决策方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119809369B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411768961.7,技术领域涉及:G06Q10/0637;该发明授权一种结合模仿学习和强化学习的空战智能决策方法及系统是由王衡;任惠民;姜超然;龚昊为;郝帅设计研发完成,并于2024-12-04向国家知识产权局提交的专利申请。
本一种结合模仿学习和强化学习的空战智能决策方法及系统在说明书摘要公布了:本发明公开了一种结合模仿学习和强化学习的空战智能决策方法,属于空战领域,方法包括:通过空战智能决策模型对战场态势信息进行处理,获得用于指导本机的决策结果。预训练的空战智能决策模型通过以下步骤获得:针对粗颗粒度的稀疏专家策略数据,使用行为克隆算法对用于模仿学习和强化学习的神经网络架构进行训练,获得策略网络Q1;将策略网络Q1作为生成对抗模仿学习算法中的初始网络,对细颗粒度的密集专家策略进行模仿学习,获得策略网络Q2;将策略网络Q2作为强化学习算法框架中决策网络的初始网络,采用策略梯度方法进行网络训练直至收敛,获得空战智能决策模型。本发明基于能够有效改善样本利用率,并降低累积误差。
本发明授权一种结合模仿学习和强化学习的空战智能决策方法及系统在权利要求书中公布了:1.一种结合模仿学习和强化学习的空战智能决策方法,其特征在于,所述方法包括:获取战场态势信息,然后通过预训练的空战智能决策模型对所述战场态势信息进行处理,获得用于指导本机的决策结果,所述决策结果包括本机的机动动作和或打弹动作; 其中,所述空战智能决策模型通过以下步骤获得: 获取训练数据,所述训练数据包括专家策略数据; 对所述专家策略数据进行分类,获得粗颗粒度的稀疏专家策略数据和细颗粒度的密集专家策略数据; 对所述粗颗粒度的稀疏专家策略数据进行处理,获得状态-动作对数据集,然后使用行为克隆算法对用于模仿学习和强化学习的神经网络架构进行训练,获得策略网络Q1; 将所述策略网络Q1作为生成对抗模仿学习算法中的初始网络,对所述细颗粒度的密集专家策略进行模仿学习,获得策略网络Q2; 将所述策略网络Q2作为强化学习算法框架中决策网络的初始网络,采用策略梯度方法进行网络训练直至收敛,获得策略网络Q3,即所述预训练的空战智能决策模型; 所述粗颗粒度的稀疏专家策略数据包括空战规则和状态-动作对,则所述对所述粗颗粒度的稀疏专家策略数据进行处理,获得状态-动作对数据集的步骤包括:通过决策树模型对所述空战规则进行扩充并生成新的状态-动作对,将之与所述粗颗粒度的稀疏专家策略数据中所包含的状态-动作对进行合并,获得所述状态-动作对数据集; 在训练所述空战智能决策模型时,还包括适用于本机的行为约束输入和对抗场景输入;所述行为约束输入包括运动学与动力学约束以及战术动作约束;所述对抗场景输入包括近距、中距和超视距场景; 在进行策略网络Q1的训练时,将所述状态-动作对数据集中的状态S作为特征,将动作A作为标记进行回归,对所有的动作A做One-Hot编码,定义损失函数重复进行随机梯度下降,直至行动克隆算法收敛。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励