基于深度强化学习的高超飞行器智能突防机动决策方法

导航：龙图腾网> 最新专利技术> 基于深度强化学习的高超飞行器智能突防机动决策方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种基于深度强化学习的高超飞行器智能突防机动决策方法，首先设计了高超声速飞行器面对敌方两枚拦截弹的典型攻防对抗场景。然后设计并训练深度强化学习算法，得到以飞行状态、相对运动状态为输入，高超声速飞行器机动过载指令为输出的机动决策。通过上述方法实现了高超声速飞行器的智能突防策略。

主权项：1.一种基于深度强化学习的高超飞行器智能突防机动决策方法，其特征在于，包括如下步骤：步骤1：攻防对抗作战典型场景建模；步骤1-1：建立攻防对抗数学模型，在地面坐标系中建立高超声速飞行器H和两枚拦截弹I1,I2的三自由度质点模型，对于高超声速飞行器：式中，下标H表示高超声速飞行器；VH表示飞行速度；θH,ψH分别表示弹道倾角和弹道偏角，用于描述高超声速飞行器在空间中的飞行姿态；xH,yH,zH表示地面坐标系下的位置坐标；nHx,nHy,nHz表示在弹体坐标系下三个方向的过载，其中nHx为切向过载，nHy,nHz为法向过载；g为重力加速度，取9.8；步骤1-2：将飞行器的自动驾驶仪模型假设为一阶动力学环节，则高超声速飞行器和拦截弹获得的实际过载与过载指令的关系表述如下：式中，norders为飞行器设计的过载指令，ns为过载响应，T为一阶动态特性的响应时间常数，s为拉普拉斯算子；步骤1-3：将三维空间的运动投影到横向和纵向二维平面上；在横向平面中拦截弹I1与高超声速飞行器H的相对运动学方程为：：式中，下标H和I1分别表示高超声速飞行器和拦截弹；表示双方相对距离，表示相对距离的变化率；qH表示目标线方位角，简称视角，表示目标线HI的旋转角速度；ψH,分别表示飞行器的速度向量与目标线HI之间的夹角，即速度前置角；表示速度前置角的变化率；和分别表示水平面中攻防双方的弹道偏角；VH和分别表示高超声速飞行器和拦截弹的速度；步骤2：典型作战场景想定；高超声速飞行器发射后，受地球曲率的影响，敌方雷达将在H1km外发现我方高超声速飞行器，并从不同发射阵地发射拦截弹进行拦截；在拦截过程中假设敌方已知我方高超声速飞行器的最终攻击目标，故在整个拦截过程中制导率不切换，为比例制导率，导航比随攻防双方相对距离变化；制导加速度指令为：式中，N为有效导航系数，取值为：我方高超声速飞行器在相距H1km时机载雷达开始工作，基于自身的告警探测设备和设计算法输出指令过载，进行规避突防；在不机动的情况下，高超声速飞行器处于平飞状态；高超声速飞行器采用倾斜转弯BTT技术，数学表达式为：式中，ayc和azc为惯性系下俯仰和偏航的制导指令；γbc0为弹体系下的滚转角大小，对其进行处理后输出γbc滚转控制指令；αybc为弹体系下俯仰控制指令；步骤3：设计智能突防决策算法框架，分为深度强化学习算法框架、攻防对抗场景框架、攻防态势信息计算框架；深度强化学习算法框架根据输入的攻防态势信息，输出作用于攻防对抗场景的动作指令；攻防对抗场景框架分别根据机动过载指令解算出模拟高超声速飞行器和拦截弹的运动信息，并生成弹道轨迹；攻防态势信息计算框架根据攻防对抗双方的相对运动信息计算相对运动状态和剩余时间数组、并对拦截态势和突防威胁进行评估；步骤4：SACSoftActor-Criticwithmaximumentropy算法模型搭建；步骤4-1：采用SAC算法进行智能机动决策训练，交互过程用马尔可夫决策过程MarkovDecisionProcess，MDP表示：[S,A,p,r,γ]式中，S为状态空间State，智能体Agent根据状态空间信息做出决策；A为动作空间Action，表示智能体做出的决策信息；p是状态转移概率Probability；r表示回报函数reward，用于给智能体的决策打分；γ表示折扣因子，以γ为参数对r加权累计，得到一次完整的MDP过程中得到的总回报，深度强化学习的训练过程即为使得总回报最大的过程：Ut＝Rt+γ·Rt+1+γ2·Rt+1+...+γn-t·Rn式中，Rt表示t时刻的奖励值，Rt+1表示t+1时刻的奖励值，Rn表示t+n时刻的奖励值；γ表示折扣系数，用于调节未来奖励相对于当前奖励的重要性；Ut表示总回报大小；步骤4-2：SAC算法基于Actor-Critic架构，内部的深度神经网络结构由双Q值网络和策略网络构成，输入层与输出层都是全连接网络的结构；双Q值网络用Qθst,at表示，策略网络用πat|st表示；SAC算法通过最大化奖励的期望值和熵的加权和来进行优化，目标函数为：式中，参数α是温度项，用来控制上一时刻策略的熵对于奖励的重要程度；st表示当前t时刻的状态值，st+1表示t+1时刻的状态值；at表示动作值；Rst,at,st+1表示奖励值；Hπ·|st表示熵值，即策略π·|st的随机性或不确定性；α表示温度参数，即用于控制探索的程度；γ表示折扣系数；步骤4-3：Q网络的目标函数为：其中，D表示经验回放池中的数据；s,s′表示t时刻与t+1时刻的状态值；表示目标网络对状态s的预测价值估计；并使用MSEloss作为Loss函数，θ表示Q网络的权重、偏置参数；Q网络每次选择输出中较小的一个状态动作值作为目标Q值：式中，表示状态动作值中的较小值，s′和a'表示下一时刻的状态和动作；α表示温度系数；采用重参数化技巧对动作采样，SAC算法用一个带噪声的神经网络表示策略：at＝fφε；st式中，ε表示噪声强度，fφ.表示噪声函数，即策略输出的概率分布；由此得策略网络的目标函数为：式中，N表示给定的噪声策略；熵的温度项自动调节的损失函数为：式中，H0表示算法的目标熵，πtat|st表示当前策略；步骤5：突防决策模型状态空间设计；状态空间设计为：式中，表示高超声速飞行器与第i枚拦截弹的相对位置矢量，通过雷达对目标的探测以及自身惯组信息解算得到；ε,β分别表示飞行器自身的弹道偏角和弹道倾角，由自身惯组测量得到；△r表示飞行器和打击目标之间的径向距离，通过雷达对目标的探测以及自身惯组信息解算得到；ConsumeFuel表示飞行器能量的消耗量，用于约束飞行器的机动大小；在输入SAC网络之前，手动缩放对不同的单位特征进行无量纲处理；步骤6：突防决策模型动作空间设计；采用过载指令信息作为智能体的动作空间：Nagent＝[ny,γopt]式中，ny.γopt分别是智能体产生的纵向过载和法向过载指令；智能体输出的过载指令为连续变量；若得出决策为不机动，则输出0；步骤7：突防决策模型奖励函数设计；奖励函数将感知的状态信息映射为增强信号，用来评估动作的好坏；设置奖励函数为：reward＝reward_stage+reward_end式中，reward_stage是阶段突防奖励，reward_end是使命任务奖励；阶段突防奖励用于评价每一仿真步长中高声速飞行器机动决策的效果，具体表示为：reward_stage＝reward1+reward2reward1＝-ConsumeFuel×k1reward2＝-k2×[rmti+1-rmti]式中，reward1表示对能量消耗的惩罚项，用于约束飞行器在突防过程中的能消耗；reward2用来引导飞行器向预设打击目标方向不断飞行；rmt.表示高超声速飞行器与打击目标之间的相对距离；使命突防任务用于评价高超声速飞行器是否完成对全部拦截弹的突防：其中，k1到k5为奖励项权重；步骤8：突防决策模型终止条件设置：此式表示高超声速飞行器和拦截弹的相对距离开始变大时，可判断为突防过程结束。

全文数据：

权利要求：

百度查询：西北工业大学基于深度强化学习的高超飞行器智能突防机动决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：月报数据导出方法、装置、设备及计算机存储介质

下一篇：一种油冷电机

相关技术

月报数据导出方法、装置、设备及计算机存储介质

一种油冷电机

一种喷油器总成压紧机构

抽拉式转动结构及卡扣装置

激光线光源检测方法、系统及计算机可读存储装置

一种多功能电源变换装置的控制方法

一种畜牧兽医牲畜输液的固定器

一种塑胶制品分类放置货架

一种新型输送对齐装置

一种电路板安装机构

降噪构件和具有降噪构件的用于制动系统的电磁阀

一种小型开槽机

飞行器相关技术

多旋翼飞行器_爱三工业株式会社_202410163429.6

除静电装置和飞行器_四川沃飞长空科技发展有限公司_202323640950.4

泄压结构及飞行器_四川沃飞长空科技发展有限公司_202420381645.3

用于飞行器的乘客的可转换的座椅、用于飞行器的乘客的座椅单元以及飞行器_空中客车大西洋航空公司_202410241583.0

一种安全型低空飞行器_北京中科光析科学技术研究所山东分所_202411044502.4

一种固定翼飞行器_烟台中飞海装科技有限公司_202420357146.0

一种扑翼飞行器_北京工业大学_202410867068.3

一种仿生蝴蝶微型飞行器_西京学院_202410761254.9

一种无人飞行器系统_南京理工大学_202410741209.7

一种飞行器起飞支撑装置_沈阳航空航天大学_202323620859.6

智能相关技术

智能仓库_云南省烟草公司楚雄州公司_202420443157.0

智能终端_深圳市沃特沃德信息有限公司_201810655512.X

智能眼镜_歌尔股份有限公司_202410805385.2

智能驾驶控制系统和智能驾驶控制方法_浙江极氪智能科技有限公司_202410804769.2

智能马桶的清洗控制方法及智能马桶_深圳市恒致云科技有限公司_202410590810.0

用于智能门锁的离合结构及智能门锁_惠州市昊成工控科技有限公司_202323243301.0

智能风扇灯_深圳市沃特沃德信息有限公司_202323660014.X

智能吊装系统_河北光兴半导体技术有限公司_202420270930.8

智能开关_武汉领普科技有限公司_202323456669.5

智能浴室镜_佛山市凯蒂曼家居有限公司_202323643861.5

高超相关技术

高超声速风洞动态分离试验整体投放装置及整体投放方法_中国空气动力研究与发展中心超高速空气动力研究所_202410722313.1

一种气动热防护装置及高超声速飞行器_清华大学_202420435207.0

一种常规高超声速风洞的瞬态热流测量装置及试验方法_中国航空工业集团公司沈阳空气动力研究所_202411034358.6

宽速域高超声速飞行器翼型多目标优化设计方法及折中翼型_西北工业大学_202211384508.7

一种皮带机防超高超宽保护装置_山西灵石华瀛天星集广煤业有限公司_202010273652.8

中尺度高超声速流场组分TDLAS测量结果现场比对测试装置及方法_西安航天动力试验技术研究所_202410632655.4

用于再入高超声速飞行器的自驱动主动热防护翼前缘构件_中国科学技术大学_202211149361.3

一种高超声速飞行器燃烧室壁面的再生-定向发汗复合冷却装置_哈尔滨工业大学_202410765732.3

一种基于鲁棒对抗强化学习的高超声速飞行器姿态控制方法_天津大学_202410627947.9

污水处理厂超高超厚池壁施工工艺_中国建筑第七工程局有限公司_202410892462.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深度强化学习的高超飞行器智能突防机动决策方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务