基于强化学习的空域训练飞行路径自动规划方法和装置

导航：龙图腾网> 最新专利技术> 基于强化学习的空域训练飞行路径自动规划方法和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国电子科技集团公司第十五研究所

摘要：本发明属于模拟飞行指挥训练技术领域，提供一种基于强化学习的空域训练飞行路径自动规划方法和装置。该方法包括：收集已有飞行计划数据，并从所述已有飞行数据中提取与飞行路径规划相关的数据；建立空域飞行训练场景模型；采用Q‑Learning强化学习算法建立飞行路径自动规划模型，具体包括在训练所述飞行路径自动规划模型的同时更新飞行目标决策表；接收客户端发送的当前飞行计划数据，并从当前飞行计划数据中提取与飞路径规划相关的飞行起点位置、飞行终点位置、目标空域、禁飞空域，作为模型输入，以输出与当前飞行计划数据相匹配的飞行路径。本发明能精确生成最佳训练飞行路径，并能灵活地、实时地调整训练飞行路径。

主权项：1.一种基于强化学习的空域训练飞行路径自动规划方法，其特征在于，包括：收集已有飞行计划数据，并从所述已有飞行计划数据中提取与飞行路径规划相关的数据；使用所提取的与飞行路径规划相关的数据，建立空域飞行训练场景模型，具体包括基于飞行起点位置、飞行终点位置、目标空域和禁飞区域建立飞行区域场景环境，基于飞行起点位置、飞行终点位置形成场景矩形；对于飞行区域场景环境的建立，还包括配设智能飞行员，所述智能飞行员用于重复执行循环步骤，以学习到每个飞行目标位置对应的最优动作、最优飞行方向的倾向以形成最优飞行路径，智能飞行员在每一次循环中的步骤执行为：步骤S201，根据当前模拟飞行体所处位置在FOD-Table中采用ε-greedy策略挑选飞行目标飞行方向；步骤S202，智能飞行员控制飞行目标沿着步骤S201中得到的飞行方向进行移动，移动到区域场景矩阵的下一个位置、即下一飞行目标位置，从区域场景矩阵中获取该位置的飞行空域分值Rewardactual，判断飞行目标是否到达终点,如果没有到达终点，继续执行下一步骤；计算中间值h；所述建立空域飞行训练场景模型包括：将所形成的场景矩形切割成多个正方形网格，确定每个正方形网格的网格长度，每一个正方形网格对应一个元素，建立M列N行的二维数据、即形成区域场景矩阵；基于所形成的环境矩形、目标空域、禁飞区域、智能飞行员、模拟飞行体建立飞行区域场景环境；基于所述空域飞行训练场景模型，采用Q-Learning强化学习算法建立飞行路径自动规划模型，具体包括在训练所述飞行路径自动规划模型的同时更新飞行目标决策表，所述飞行目标决策表包括模拟飞行体在区域场景矩阵中所有位置的位置信息、在到达各位置时选择移动方向的倾向值；基于所述场景矩阵，建立飞行空域评估函数，所述飞行空域评估函数用于评估模拟飞行体在经过目标空域或禁飞区域时所得到的飞行空域分值，飞行空域评估函数基于当前飞机所处位置和终点的距离计算出k值，距离终点越近，k值越高，然后将k值加1后与当前位置的飞行空域分值Reward相乘得到模拟飞行体经过当前位置所得到的飞行空域分值Rewardactual，智能体使用飞行空域分值Rewardactual来进行学习过程；通过使智能飞行员执行以下循环步骤，来训练所述飞行路径自动规划模型，并在训练所述飞行路径自动规划模型的同时，更新飞行目标决策表：根据当前飞行目标位置的观测值，从初始的飞行目标决策表中选择执行动作的移动方向；确定当前飞行目标位置的各飞行方向的概率，以选择概率最大的飞行方向，作为下一步的飞行方向，在飞行区域场景中执行所述下一步的飞行方向，并从飞行区域场景模型中返回下一飞行目标位置、飞行空域评估值以及模拟飞行体是否到达目的地；在确定已到达目的地时，则结束本轮训练过程；接收客户端发送的当前飞行计划数据，并从当前飞行计划数据中提取与飞路径规划相关的飞行起点位置、飞行终点位置、目标空域、禁飞空域，作为模型输入，以输出与当前飞行计划数据相匹配的飞行路径。

全文数据：

权利要求：

百度查询：中国电子科技集团公司第十五研究所基于强化学习的空域训练飞行路径自动规划方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于强化学习的空域训练飞行路径自动规划方法和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务