基于深度强化学习的空空导弹越肩发射制导律设计方法

导航：龙图腾网> 最新专利技术> 基于深度强化学习的空空导弹越肩发射制导律设计方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京航空航天大学

摘要：本发明一种基于深度强化学习的空空导弹越肩发射制导律设计方法，包括步骤如下：步骤1，对越肩发射进行归一化动力学建模；对模型进行归一化使各状态量具有相近的量级，从而使神经网络的权重更新能够更加稳定；步骤2，为了适应强化学习的研究范式，需要将步骤1中的研究问题建模为马尔科夫决策过程；步骤3，搭建算法网络，设置算法参数；选用的深度学习算法为近端策略优化算法PPO，步骤4，在训练达到目标奖励值或最大步数之前，智能体将根据PPO算法不断收集状态转移数据及奖励，并不断迭代更新Actor网络和Critic网络的参数。应用本发明的技术方案，可以使导弹在复杂的气动环境中获得具有次优性和鲁棒性的攻角制导律，且考虑了导弹不同机动能力的限制，在未来空战中具有实用价值。

主权项：1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法，其特征在于，包括步骤如下：步骤1，对越肩发射进行归一化动力学建模；对模型进行归一化使各状态量具有相近的量级，从而使神经网络的权重更新能够更加稳定；首先对导弹越肩发射的场景进行建模，得到气动系下的动力学方程与惯性系下的运动学方程以及考虑质量变化的方程；步骤2，为了适应强化学习的研究范式，需要将步骤1中的研究问题建模为马尔科夫决策过程；步骤3，搭建算法网络，设置算法参数；选用的深度学习算法为近端策略优化算法PPO，该算法包含Actor网络和Critic网络，网络权重参数采用随机化参数；步骤4，在训练达到目标奖励值或最大步数之前，智能体将根据PPO算法不断收集状态转移数据及奖励，并不断迭代更新Actor网络和Critic网络的参数；在步骤1中，方程具体为：其中为导弹归一化后飞行速度，为归一化后弹道倾角，为归一化后横坐标，为归一化后纵坐标，为前述各量相应变化率，而V*、θ*、x*、y*为前述各量相应的归一化因子；此外α为导弹攻角，P为主发动机推力，Trcs为反作用喷气发动机推力，up和urcs分别为主发动机和反作用喷气发动机的开关机逻辑量，FD和FL分别为具有较强不确定性的阻力和升力，m为导弹质量，mc为质量流量，g为重力加速度常数；在步骤2中，具体过程包括步骤201至步骤203；步骤201，动作空间设置；为了保证系统动态的平稳性，选用攻角α的一阶导数作为系统输入；此外，将作为动作还能满足导弹的机动能力限制；但随着未来空空导弹机动能力的发展，尤其是在推力矢量或反作用喷气的辅助下，用攻角的限制也将随之取消；步骤202，状态空间及观测空间设置；在步骤201设置动作的基础上，设置智能体的状态空间和观测空间，但并不是系统中所有的状态都对控制指令的决策有意义；冗余的观测将导致训练的不稳定，而不足的观测则容易直接导致训练不收敛；步骤203，奖励函数设置；奖励函数的设置对最终训练效果有着重要的影响，为了避免奖励稀疏，这里设计的奖励函数为其中为期望转弯角度，θM为导弹弹道倾角，λ1，λ2，λ3为需要设置的超参数，用于调节各项之间的比例；且为了提高最终转弯精确度，引入额外奖励rbonus，其值为其中rb为在满足精度条件时的额外奖励，rb需要与前面各项相协调以保证智能体在理想精度θthre内获得合适的奖励；在步骤4中，具体包括步骤401至步骤404；步骤401，在当前策略下收集轨迹数据并缓存至经验池，直至经验池存满；在每个仿真步长中，对于当前观测值ot，执行当前策略得到当前动作at，并根据系统动力学方程积分得到下一时刻的状态st+1和观测ot+1，同时获得奖励rt；步骤402，采用广义优势估计GAE的方法估计优势函数最终的优化目标其中cvf和cs是调整各项比例的超参数；为增加更有优势的动作的概率的截断目标，为值函数损失项，为鼓励探索的最大化熵项；步骤403，从经验池中按照batch的大小取出轨迹数据，并将优化目标JPPOθ采用随机梯度下降的方式优化Actor网络和Critic网络的参数，直到经验池中数据完成K个epoch的更新；步骤404，考虑到初始转弯指令的随机性，比较新旧策略所获累积奖励的期望，更新最终输出的网络参数；步骤405，重复步骤401至步骤404直至训练得到目标奖励值或达到最大训练步数，得到Actor网络将作为最终的策略网络直接部署在弹载计算机上，实时生成攻角制导指令。

全文数据：

权利要求：

百度查询：北京航空航天大学基于深度强化学习的空空导弹越肩发射制导律设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：数据保护方法及装置、电子设备、存储介质

下一篇：用于运行用于制造碳氢化合物产品的多部件的设施的方法

相关技术

数据保护方法及装置、电子设备、存储介质

用于运行用于制造碳氢化合物产品的多部件的设施的方法

半导体结构的制备方法、半导体结构、器件及设备

一种适用于沙棘发酵的乳酸菌及沙棘饮品及其制备方法

用于组装及维修钟表的模块化设备

可穿戴设备

基于市场环境分析的集团级企业经营拓展管理系统

一种电机电源调节电路及控制方法、电子设备

存储方法、装置、电子设备、存储介质和计算机程序产品

一种具有自动更换功能的路政广告牌

剪切设备和剪切方法

一种快装式市政井座井盖及安装方法

发射相关技术

具有分组的子发射面的场效应电子发射器_西门子医疗股份公司_202410213216.X

一种礼花弹发射装置及发射方法_湖南星如雨科技有限公司_202410825788.3

一种MIMO系统发射端发射流符号生成方法和通信方法_深圳市力合微电子股份有限公司_202410668235.1

一种相控阵射频发射组件、相控阵射频发射天线_石家庄军特电子科技有限公司_202323370137.X

光发射模组、光设备及系统_华为技术有限公司_202310228941.X

增雨防雹火箭发射装置_成都润联科技开发有限公司_202010163678.7

无线发射/接收单元及方法_交互数字专利控股公司_202410705663.7

一种信号发射方法和装置_联想(北京)有限公司_202410740930.4

一种多角度红外发射装置_广州力扑智能科技有限公司_202323327188.4

定位光束发射设备、系统及定位系统_北京国承万通信息科技有限公司_201611163164.1

越相关技术

一种防越料刮板机_石嘴山市华岳新材料科技有限公司_202420146239.9

一种基于断面越限量的电网日内发电计划安全校核方法_国网黑龙江省电力有限公司电力科学研究院_202410468397.0

一种含分布式光伏低压配电网电压越限控制方法_中国矿业大学_202410664022.1

一种叉车货叉架防越程结构_济宁市特种设备检验研究院_202420323817.1

一种船舶航行追越行为的检测预警方法及系统_宁波远洋运输股份有限公司_202410988449.7

机电设备及其发动机越控方法和越控装置_潍柴动力股份有限公司_202211626206.6

一种仿骆驼足指枕结构的仿生越沙轮_南京航空航天大学_202410708060.2

一种短路电流越限的控制方案持续时间计算方法及系统_国电南瑞科技股份有限公司_202410388548.1

一种织锦巴非蛤亲本高位池塘越夏养殖与育肥方法_广西海洋研究所有限责任公司_202210563514.2

快慢车混合运营的越行站设置方法_北京城建设计发展集团股份有限公司_202410601921.7

肩相关技术

一种肩锁关节脱位手术装置_上海浦东复旦大学张江科技研究院_202411052564.X

一种肩颈按摩器_王维加_202323004254.4

一种改良式手术用肩托_福建省龙岩市第一医院_202323450631.7

一种气垫式开颅肩颈支架_内蒙古医科大学_202323656531.X

一种肩颈舒缓按摩器_上海满斡窠达电子科技有限公司_202321921522.6

可调式钻杆内螺纹主副台肩面修磨装置_中国石油集团渤海石油装备制造有限公司_202323633074.2

一种带凸肩锻件的锻造装置及方法_山西北方机械制造有限责任公司_202410763478.3

一种肩锁关节脱位后的矫形复位器_慈溪市人民医院医疗健康集团(慈溪市人民医院)_202323027025.4

一种肩袖撕裂缝合时用的J型过线器_尤尼泰科(重庆)医疗科技有限公司_202323229439.5

车内肩颈拉伸的人机互动方法、装置、终端及存储介质_重庆长安汽车股份有限公司_202410787675.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深度强化学习的空空导弹越肩发射制导律设计方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务