一种基于监督学习与强化学习的机动决策训练方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国航空研究院

摘要：本发明属于无人机技术领域，具体涉及一种基于监督学习和强化学习的机动决策训练方法。本发明通过构建飞行仿真环境并设置飞行竞赛规则；构建基线机动决策模型并采集飞行数据；构建神经网络决策模型并进行监督学习训练；构建PPO决策模型并进行强化学习训练。本发明前期通过监督学习方式，使得待训练策略模型快速拟合基线机动决策模型；后期通过强化学习方式，使得决策模型能够稳定提升，最终超过基线机动决策模型水准。本发明将监督学习与强化学习相结合，提高策略模型的训练效率。

主权项：1.一种基于监督学习与强化学习的机动决策训练方法，其特征在于，包括以下步骤：S1：构建飞行仿真环境并设置飞行竞赛规则；S2：构建无人机基线机动决策模型θrule并基于飞行竞赛规则与另一基线机动决策模型进行飞行竞赛，记录飞行竞赛过程中的飞行数据，获得飞行数据集并采集飞行数据，其中表示第n局中第t时刻的数据；S3：构建神经网络决策模型θbc及损失函数Lθ，并对神经网络决策模型进行监督学习训练：神经网络决策模型θbc包括2层隐藏层，神经网络决策模型的输入为神经网络决策模型的输出为预测的无人机控制信息将步骤S2中的飞行数据集D输入构建的神经网络决策模型进行正向传播得到预测的无人机控制信息通过构建的损失函数Lθ将预测的无人机控制信息与真实的无人机控制信息进行反向传播，使得损失函数向全局最小方向更新，重复上述步骤直至损失函数收敛；S4：构建PPO决策模型并进行强化学习训练；S41、构建状态空间S、动作空间A、奖励函数R：状态空间S与数据类型一致；动作空间A与数据类型一致；奖励函数R为胜负奖励；S42、构建PPO决策模型中的Actor网络θA及Critic网络θc并初始化，所述初始化是将步骤S3中训练得到的神经网络决策模型θbc的隐藏层参数赋值给Actor网络θA与Critic网络θC；S43、训练PPO决策模型并进行数据采集。

全文数据：

权利要求：

百度查询：中国航空研究院一种基于监督学习与强化学习的机动决策训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种铝管内外径阳极氧化表面处理工艺

下一篇：基于多目标优化的异构计算资源调度方法及装置

相关技术

一种铝管内外径阳极氧化表面处理工艺

基于多目标优化的异构计算资源调度方法及装置

半导体器件和用于转移半导体器件的方法

一种升压变/换流变压器可靠性评价方法

检测护膜的方法

一种市政施工给水排污管道组件

紧密世界空间包围区域的生成

一种用于风力发电机组的故障检测方法

一种猪饲料加工用粉碎装置

一种空气处理设备及控制方法

一种猪瘟、猪蓝耳和非洲猪瘟病毒抗体多色乳胶微球联检试纸卡及制备方法、使用方法

用于微弱正负电流信号读取的超导磁通量子器件及其设计方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于监督学习与强化学习的机动决策训练方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务