首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的高超飞行器智能突防机动决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种基于深度强化学习的高超飞行器智能突防机动决策方法,首先设计了高超声速飞行器面对敌方两枚拦截弹的典型攻防对抗场景。然后设计并训练深度强化学习算法,得到以飞行状态、相对运动状态为输入,高超声速飞行器机动过载指令为输出的机动决策。通过上述方法实现了高超声速飞行器的智能突防策略。

主权项:1.一种基于深度强化学习的高超飞行器智能突防机动决策方法,其特征在于,包括如下步骤:步骤1:攻防对抗作战典型场景建模;步骤1-1:建立攻防对抗数学模型,在地面坐标系中建立高超声速飞行器H和两枚拦截弹I1,I2的三自由度质点模型,对于高超声速飞行器: 式中,下标H表示高超声速飞行器;VH表示飞行速度;θH,ψH分别表示弹道倾角和弹道偏角,用于描述高超声速飞行器在空间中的飞行姿态;xH,yH,zH表示地面坐标系下的位置坐标;nHx,nHy,nHz表示在弹体坐标系下三个方向的过载,其中nHx为切向过载,nHy,nHz为法向过载;g为重力加速度,取9.8;步骤1-2:将飞行器的自动驾驶仪模型假设为一阶动力学环节,则高超声速飞行器和拦截弹获得的实际过载与过载指令的关系表述如下: 式中,norders为飞行器设计的过载指令,ns为过载响应,T为一阶动态特性的响应时间常数,s为拉普拉斯算子;步骤1-3:将三维空间的运动投影到横向和纵向二维平面上;在横向平面中拦截弹I1与高超声速飞行器H的相对运动学方程为:: 式中,下标H和I1分别表示高超声速飞行器和拦截弹;表示双方相对距离,表示相对距离的变化率;qH表示目标线方位角,简称视角,表示目标线HI的旋转角速度;ψH,分别表示飞行器的速度向量与目标线HI之间的夹角,即速度前置角;表示速度前置角的变化率;和分别表示水平面中攻防双方的弹道偏角;VH和分别表示高超声速飞行器和拦截弹的速度;步骤2:典型作战场景想定;高超声速飞行器发射后,受地球曲率的影响,敌方雷达将在H1km外发现我方高超声速飞行器,并从不同发射阵地发射拦截弹进行拦截;在拦截过程中假设敌方已知我方高超声速飞行器的最终攻击目标,故在整个拦截过程中制导率不切换,为比例制导率,导航比随攻防双方相对距离变化;制导加速度指令为: 式中,N为有效导航系数,取值为: 我方高超声速飞行器在相距H1km时机载雷达开始工作,基于自身的告警探测设备和设计算法输出指令过载,进行规避突防;在不机动的情况下,高超声速飞行器处于平飞状态;高超声速飞行器采用倾斜转弯BTT技术,数学表达式为: 式中,ayc和azc为惯性系下俯仰和偏航的制导指令;γbc0为弹体系下的滚转角大小,对其进行处理后输出γbc滚转控制指令;αybc为弹体系下俯仰控制指令;步骤3:设计智能突防决策算法框架,分为深度强化学习算法框架、攻防对抗场景框架、攻防态势信息计算框架;深度强化学习算法框架根据输入的攻防态势信息,输出作用于攻防对抗场景的动作指令;攻防对抗场景框架分别根据机动过载指令解算出模拟高超声速飞行器和拦截弹的运动信息,并生成弹道轨迹;攻防态势信息计算框架根据攻防对抗双方的相对运动信息计算相对运动状态和剩余时间数组、并对拦截态势和突防威胁进行评估;步骤4:SACSoftActor-Criticwithmaximumentropy算法模型搭建;步骤4-1:采用SAC算法进行智能机动决策训练,交互过程用马尔可夫决策过程MarkovDecisionProcess,MDP表示:[S,A,p,r,γ]式中,S为状态空间State,智能体Agent根据状态空间信息做出决策;A为动作空间Action,表示智能体做出的决策信息;p是状态转移概率Probability;r表示回报函数reward,用于给智能体的决策打分;γ表示折扣因子,以γ为参数对r加权累计,得到一次完整的MDP过程中得到的总回报,深度强化学习的训练过程即为使得总回报最大的过程:Ut=Rt+γ·Rt+1+γ2·Rt+1+...+γn-t·Rn式中,Rt表示t时刻的奖励值,Rt+1表示t+1时刻的奖励值,Rn表示t+n时刻的奖励值;γ表示折扣系数,用于调节未来奖励相对于当前奖励的重要性;Ut表示总回报大小;步骤4-2:SAC算法基于Actor-Critic架构,内部的深度神经网络结构由双Q值网络和策略网络构成,输入层与输出层都是全连接网络的结构;双Q值网络用Qθst,at表示,策略网络用πat|st表示;SAC算法通过最大化奖励的期望值和熵的加权和来进行优化,目标函数为: 式中,参数α是温度项,用来控制上一时刻策略的熵对于奖励的重要程度;st表示当前t时刻的状态值,st+1表示t+1时刻的状态值;at表示动作值;Rst,at,st+1表示奖励值;Hπ·|st表示熵值,即策略π·|st的随机性或不确定性;α表示温度参数,即用于控制探索的程度;γ表示折扣系数;步骤4-3:Q网络的目标函数为: 其中,D表示经验回放池中的数据;s,s′表示t时刻与t+1时刻的状态值;表示目标网络对状态s的预测价值估计;并使用MSEloss作为Loss函数,θ表示Q网络的权重、偏置参数;Q网络每次选择输出中较小的一个状态动作值作为目标Q值: 式中,表示状态动作值中的较小值,s′和a'表示下一时刻的状态和动作;α表示温度系数;采用重参数化技巧对动作采样,SAC算法用一个带噪声的神经网络表示策略:at=fφε;st式中,ε表示噪声强度,fφ.表示噪声函数,即策略输出的概率分布;由此得策略网络的目标函数为: 式中,N表示给定的噪声策略;熵的温度项自动调节的损失函数为: 式中,H0表示算法的目标熵,πtat|st表示当前策略;步骤5:突防决策模型状态空间设计;状态空间设计为: 式中,表示高超声速飞行器与第i枚拦截弹的相对位置矢量,通过雷达对目标的探测以及自身惯组信息解算得到;ε,β分别表示飞行器自身的弹道偏角和弹道倾角,由自身惯组测量得到;△r表示飞行器和打击目标之间的径向距离,通过雷达对目标的探测以及自身惯组信息解算得到;ConsumeFuel表示飞行器能量的消耗量,用于约束飞行器的机动大小;在输入SAC网络之前,手动缩放对不同的单位特征进行无量纲处理;步骤6:突防决策模型动作空间设计;采用过载指令信息作为智能体的动作空间:Nagent=[ny,γopt]式中,ny.γopt分别是智能体产生的纵向过载和法向过载指令;智能体输出的过载指令为连续变量;若得出决策为不机动,则输出0;步骤7:突防决策模型奖励函数设计;奖励函数将感知的状态信息映射为增强信号,用来评估动作的好坏;设置奖励函数为:reward=reward_stage+reward_end式中,reward_stage是阶段突防奖励,reward_end是使命任务奖励;阶段突防奖励用于评价每一仿真步长中高声速飞行器机动决策的效果,具体表示为:reward_stage=reward1+reward2reward1=-ConsumeFuel×k1reward2=-k2×[rmti+1-rmti]式中,reward1表示对能量消耗的惩罚项,用于约束飞行器在突防过程中的能消耗;reward2用来引导飞行器向预设打击目标方向不断飞行;rmt.表示高超声速飞行器与打击目标之间的相对距离;使命突防任务用于评价高超声速飞行器是否完成对全部拦截弹的突防: 其中,k1到k5为奖励项权重;步骤8:突防决策模型终止条件设置: 此式表示高超声速飞行器和拦截弹的相对距离开始变大时,可判断为突防过程结束。

全文数据:

权利要求:

百度查询: 西北工业大学 基于深度强化学习的高超飞行器智能突防机动决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。