首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的空空导弹越肩发射制导律设计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京航空航天大学

摘要:本发明一种基于深度强化学习的空空导弹越肩发射制导律设计方法,包括步骤如下:步骤1,对越肩发射进行归一化动力学建模;对模型进行归一化使各状态量具有相近的量级,从而使神经网络的权重更新能够更加稳定;步骤2,为了适应强化学习的研究范式,需要将步骤1中的研究问题建模为马尔科夫决策过程;步骤3,搭建算法网络,设置算法参数;选用的深度学习算法为近端策略优化算法PPO,步骤4,在训练达到目标奖励值或最大步数之前,智能体将根据PPO算法不断收集状态转移数据及奖励,并不断迭代更新Actor网络和Critic网络的参数。应用本发明的技术方案,可以使导弹在复杂的气动环境中获得具有次优性和鲁棒性的攻角制导律,且考虑了导弹不同机动能力的限制,在未来空战中具有实用价值。

主权项:1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法,其特征在于,包括步骤如下:步骤1,对越肩发射进行归一化动力学建模;对模型进行归一化使各状态量具有相近的量级,从而使神经网络的权重更新能够更加稳定;首先对导弹越肩发射的场景进行建模,得到气动系下的动力学方程与惯性系下的运动学方程以及考虑质量变化的方程;步骤2,为了适应强化学习的研究范式,需要将步骤1中的研究问题建模为马尔科夫决策过程;步骤3,搭建算法网络,设置算法参数;选用的深度学习算法为近端策略优化算法PPO,该算法包含Actor网络和Critic网络,网络权重参数采用随机化参数;步骤4,在训练达到目标奖励值或最大步数之前,智能体将根据PPO算法不断收集状态转移数据及奖励,并不断迭代更新Actor网络和Critic网络的参数;在步骤1中,方程具体为: 其中为导弹归一化后飞行速度,为归一化后弹道倾角,为归一化后横坐标,为归一化后纵坐标,为前述各量相应变化率,而V*、θ*、x*、y*为前述各量相应的归一化因子;此外α为导弹攻角,P为主发动机推力,Trcs为反作用喷气发动机推力,up和urcs分别为主发动机和反作用喷气发动机的开关机逻辑量,FD和FL分别为具有较强不确定性的阻力和升力,m为导弹质量,mc为质量流量,g为重力加速度常数;在步骤2中,具体过程包括步骤201至步骤203;步骤201,动作空间设置;为了保证系统动态的平稳性,选用攻角α的一阶导数作为系统输入;此外,将作为动作还能满足导弹的机动能力限制;但随着未来空空导弹机动能力的发展,尤其是在推力矢量或反作用喷气的辅助下,用攻角的限制也将随之取消;步骤202,状态空间及观测空间设置;在步骤201设置动作的基础上,设置智能体的状态空间和观测空间,但并不是系统中所有的状态都对控制指令的决策有意义;冗余的观测将导致训练的不稳定,而不足的观测则容易直接导致训练不收敛;步骤203,奖励函数设置;奖励函数的设置对最终训练效果有着重要的影响,为了避免奖励稀疏,这里设计的奖励函数为其中为期望转弯角度,θM为导弹弹道倾角,λ1,λ2,λ3为需要设置的超参数,用于调节各项之间的比例;且为了提高最终转弯精确度,引入额外奖励rbonus,其值为其中rb为在满足精度条件时的额外奖励,rb需要与前面各项相协调以保证智能体在理想精度θthre内获得合适的奖励;在步骤4中,具体包括步骤401至步骤404;步骤401,在当前策略下收集轨迹数据并缓存至经验池,直至经验池存满;在每个仿真步长中,对于当前观测值ot,执行当前策略得到当前动作at,并根据系统动力学方程积分得到下一时刻的状态st+1和观测ot+1,同时获得奖励rt;步骤402,采用广义优势估计GAE的方法估计优势函数最终的优化目标其中cvf和cs是调整各项比例的超参数;为增加更有优势的动作的概率的截断目标,为值函数损失项,为鼓励探索的最大化熵项;步骤403,从经验池中按照batch的大小取出轨迹数据,并将优化目标JPPOθ采用随机梯度下降的方式优化Actor网络和Critic网络的参数,直到经验池中数据完成K个epoch的更新;步骤404,考虑到初始转弯指令的随机性,比较新旧策略所获累积奖励的期望,更新最终输出的网络参数;步骤405,重复步骤401至步骤404直至训练得到目标奖励值或达到最大训练步数,得到Actor网络将作为最终的策略网络直接部署在弹载计算机上,实时生成攻角制导指令。

全文数据:

权利要求:

百度查询: 北京航空航天大学 基于深度强化学习的空空导弹越肩发射制导律设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。