基于双延时确定策略梯度的六自由度无人机空战决策方法

导航：龙图腾网> 最新专利技术> 基于双延时确定策略梯度的六自由度无人机空战决策方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京航空航天大学

摘要：本发明涉及一种基于双延时确定策略梯度的六自由度无人机空战决策方法，属于无人机控制领域。本发明针对现有技术存在的模型简单、与空战实际相去较远的问题，建立了UCAV非线性六自由度全量方程并在此基础上构建了双延时确定策略梯度算法的空战决策框架。本发明建立了UCAV的非线性六自由度模型，相较于以过载为输入的三自由度质点模型更加贴近空战实际，得到的结果更具有参考价值。本发明采用了具有连续决策输出的双延时确定策略梯度算法，相较于以DQN算法为代表的离散决策输出算法，无需将控制指令离散化为几个机动动作，拓宽了决策指令的可选择范围，更具有实际应用价值。

主权项：1.一种六自由度环境下基于双延时确定策略梯度的空战决策方法，其特征在于，该方法包括如下步骤：步骤S1、建立UCAVUnmannedCombatAirVehicle非线性六自由度模型，在MATLABSIMULINK中构建六自由度模型并利用PID方法设计控制器；步骤S2、构建仿真空战环境，其中，敌我两架UCAV性能相同，采用了基于攻击区假定的胜负判定方法，敌机决策采用纯追踪法；步骤S3、实现基于双延时确定策略梯度算法的空战决策训练框架，将空战决策问题建模为马尔可夫决策过程，设计状态空间、动作空间及奖励函数；步骤S4、随机初始化空战态势并通过不断训练得到空战决策训练框架中用于决策的策略网络；步骤S5、利用得到的策略网络在仿真环境中进行空战，我机使用策略网络输出的指令，敌机使用纯追踪法产生的指令；其中，所述步骤S3具体包括如下步骤：步骤S31：状态空间设计在空战过程中，与交战态势相关的飞行状态量包括三维坐标x,y,z、速度V、航迹倾斜角γ、航迹方位角χ、俯仰角θ、滚转角φ；状态空间选取的状态量如下：[R1000,γ',χ',zr1000,γr,χr,θr,φr,γb,χb,θb,φb,Vr1000,Vb1000]8式中，R为两机间的距离，单位为m，γ'为两机连线的航迹倾斜角，χ'为两机连线的航迹方位角，下标指代红方r或蓝方b；步骤S32：动作空间设计定义策略网络输出动作为速度V、俯仰角θ、滚转角φ指令的变化量，把策略网络输出值映射为UCAV控制指令；步骤S33：奖励函数设计奖励函数包括角度优势奖励、距离优势奖励、高度优势奖励、获胜奖励四部分，综合上述四项奖励得到最终奖励函数；步骤S34：在Python中实现基于TD3算法的空战决策训练框架，TD3算法为双延时确定策略梯度算法，TD3算法训练的目的在于得到策略网络进行决策，策略网络根据输入的公式8所示状态量输出动作，包括：速度V、俯仰角θ、滚转角φ指令；训练过程中，策略网络不断决策与环境进行交互，根据得到的奖励值大小来优化策略网络参数；所述步骤S33具体包括：步骤S331：角度优势奖励在地面坐标系下，红机坐标为xr,yr,zr，蓝机坐标为xb,yb,zb，则由红机指向蓝机的连线为Rrbxb-xr,yb-yr,zb-zr；红机的速度矢量为Vrvxr,vyr,vzr，蓝机的速度矢量为Vbvxb,vyb,vzb；角度优势奖励函数形式如下：式中指攻击角，指逃逸角，其计算式如下：步骤S332：距离优势奖励距离优势奖励函数形式如下：式中Rlim为临界距离，当距离大于等于Rlim时，随距离增大奖励值逐渐降低，Rlim值的设置与攻击区范围有关；步骤S333：高度优势奖励高度优势奖励函数形式如下：式中zr为我机高度，单位为m；步骤S334：获胜奖励在一方将对方纳入攻击区或对方坠地时判定获胜，给予高奖励值：步骤S335：综合上述四项奖励得到最终奖励函数具有如下形式：r＝rangle+rdis+rh+rwin14。

全文数据：

权利要求：

百度查询：北京航空航天大学基于双延时确定策略梯度的六自由度无人机空战决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种大型储罐双盘式浮顶结构

下一篇：图像编码/解码方法和装置，以及发送比特流的方法

相关技术

一种大型储罐双盘式浮顶结构

图像编码/解码方法和装置，以及发送比特流的方法

一种扬声器U铁冲压送料装置及其方法

数据迁移方法、装置、终端设备及计算机可读存储介质

一种板式逆流相变储能换热器

一种健脾丸指纹图谱及多成分含量的测定方法

一种封闭式双螺杆空压机

一种焊剂生产环保炉盖

一种具有调节轴心功能的滚动轴承

一种物联网远程控制数据传输方法、系统及存储介质

一种用于模具更换的快速定位夹具

一种带清洗功能的双轴卧式搅拌机

自由度相关技术

用于增强现实的有形六自由度接口_谷歌有限责任公司_202280094251.3

带有多自由度的自动胀管机_无锡东逸电液伺服技术有限公司_201910091373.7

多自由度调平的物料输送装置及非接触式曝光设备_苏州天准科技股份有限公司_202420563325.X

一种多自由度手术机器人高频超声刀_武汉半边天微创医疗技术有限公司_202411020520.9

具有相关联的运动自由度的用户接口交互元素_直观外科手术操作公司_202380030189.6

一种同步绳索驱动的单自由度旋转关节_哈尔滨工业大学_202211314217.0

用于多自由度串联机械臂的高精度标定方法及装置_东北大学_202411432995.9

一种多种自由度调节的电脑显示器_深圳市美视达技术有限公司_202323126866.0

一种选区激光融化成型件多自由度清粉装置_沈阳天枢增材制造有限公司_202420437870.4

三自由度读数头、光栅干涉仪及位移测量系统_北京华卓精科科技股份有限公司_202310531816.6

梯度相关技术

一种高效梯度稀释工作站_广州阿凡提生物技术有限公司_202323322798.5

一种基于梯度变换的导线循迹识别方法_南京红松信息技术有限公司_202210134424.1

一种铁基梯度金属陶瓷材料及其制备方法_西安文理学院_202410993720.6

基于改进相位梯度自聚焦的卫星目标ISAL振动相位补偿方法_西安电子科技大学_202411115674.6

一种用于水工混凝土的梯度复合防护涂层及其制备方法_中国水利水电科学研究院_202411288463.2

一种基于亮度梯度的纤芯点云定位方法及相关设备_精微视达医疗科技(苏州)有限公司_202410981245.0

一种梯度功能镍钛合金及其制备方法和应用_中国科学院福建物质结构研究所_202110945302.6

基于关系增强策略梯度和并行权重控制的跨模态检索方法_哈尔滨工业大学_202410969012.9

一种基于相位梯度透镜的全息表面波天线_中国船舶集团有限公司第七一九研究所_202411177716.9

一种梯度对称结构的硬质合金及其制备方法和应用_株洲美特优硬质合金有限公司_202410988417.7

无人机相关技术

基于无人机深度估计的无人机三维位置估计方法_华中科技大学_202411055425.2

反无人机系统及训练反无人机系统的方法_中国人民解放军国防科技大学_202410932078.0

一种无人机载荷弃投装置及微型无人机_中国兵器装备集团自动化研究所有限公司_202311093710.9

一种无人机机架_科硕大成航空科技(成都)有限公司_202420185091.X

智能轨道缺陷检测无人机_大连海事大学_202420256320.2

无人机降落伞_榆林学院_202420751438.2

一种无人机螺旋桨及具备该螺旋桨的无人机_新疆荣耀九天科技有限公司_202411182760.9

一种信号传输系统及无人机_天津云圣智能科技有限责任公司_202411075334.5

一种共轴无人机及其控制方法_中国科学院宁波材料技术与工程研究所_202411193592.3

一种巡检无人机机巢_国网宁夏电力有限公司超高压公司_202411262194.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于双延时确定策略梯度的六自由度无人机空战决策方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务