买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安电子科技大学
摘要:本发明公开了一种基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法,包括:构建雷达和干扰机对应的扩展式多回合博弈交互模型;其中,所述雷达和干扰机分别设置为神经网络虚拟自我对局中的主体:基于所述扩展式多回合博弈交互模型,获取雷达和干扰机之间的交互信息,并对所述交互信息进行编码,所述交互信息中包括博弈状态转移信息和最优反应行为信息;基于神经网络虚拟自我对局对编码后的交互信息进行求解,以获取雷达和干扰机之间的多个博弈策略组合;获取每个博弈策略组合的平均利用度,并将平均利用度最小值对应的博弈策略组合确定为目标博弈策略组合。本发明能够高效、准确地获取雷达和干扰机之间的博弈情况。
主权项:1.一种基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法,其特征在于,所述方法包括:步骤1:构建雷达和干扰机对应的扩展式多回合博弈交互模型;其中,所述雷达和干扰机分别设置为神经网络虚拟自我对局中的主体;步骤2:基于所述扩展式多回合博弈交互模型,获取雷达和干扰机之间的交互信息,并对所述交互信息进行编码,所述交互信息中包括博弈状态转移信息和最优反应行为信息;步骤3:基于神经网络虚拟自我对局对编码后的交互信息进行求解,以获取雷达和干扰机之间的多个博弈策略组合;步骤4:获取每个博弈策略组合的平均利用度,并将平均利用度最小值对应的博弈策略组合确定为目标博弈策略组合;所述博弈状态转移信息对应有强化学习记忆池所述最优反应行为信息对应有监督学习记忆池所述步骤3包括:步骤3-1:初始化所述强化学习记忆池和所述监督学习记忆池步骤3-2:通过随机参数θΠ对平均策略网络Πs,a|θΠ进行初始化,其中,s表示博弈信息状态,θΠ表示策略网络参数;步骤3-3:通过随机参数θQ对深度强化学习评估网络Qs,a|θQ进行初始化,其中,θQ表示评估网络参数;步骤3-4:构建深度强化学习目标网络Qs,a|θQ',其中,θQ'表示目标网络参数;并将评估网络参数赋给目标网络参数,表示为:θQ′←θQ;步骤3-5:初始化预期参数η;步骤3-6:开始外层循环,其中,外层循环的循环次数为雷达和干扰机的训练次数,若当前循环次数大于训练次数,执行步骤3-18;步骤3-7:将混合策略σ表示为: 步骤3-8:获取初始状态信息s1和回报信息r1;步骤3-9:开始内层循环,其中,内层循环的循环次数为雷达和干扰机之间的交互回合的回合数,若当前循环次数大于回合数,则将外层循环次数加一并重复执行步骤3-6至步骤3-9;步骤3-10:基于所述混合策略σ,采样行动at,其中,at表示行动;步骤3-11:在博弈中执行行动at,并获取回报信息rt+1以及状态信息st+1;步骤3-12:将博弈中的转移经验st,at,rt+1,st+1存储到强化学习记忆池中;步骤3-13:在主体当前执行的是近似最优反应策略σ=∈-greedy时,将状态及动作二元组st,at存储到监督学习记忆池中;步骤3-14:基于损失函数对θΠ进行更新,表示为: 步骤3-15:基于所述损失函数对θQ进行更新,表示为: 步骤3-16:按照预设周期,更新目标网络参数θQ′←θQ;步骤3-17:当内层循环执行完毕,将循环次数加一并重复执行步骤3-9;步骤3-20:当外层循环执行完毕,得到雷达和干扰机之间的多个博弈策略组合。
全文数据:
权利要求:
百度查询: 西安电子科技大学 基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。