首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于监督学习与强化学习的机动决策训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国航空研究院

摘要:本发明属于无人机技术领域,具体涉及一种基于监督学习和强化学习的机动决策训练方法。本发明通过构建飞行仿真环境并设置飞行竞赛规则;构建基线机动决策模型并采集飞行数据;构建神经网络决策模型并进行监督学习训练;构建PPO决策模型并进行强化学习训练。本发明前期通过监督学习方式,使得待训练策略模型快速拟合基线机动决策模型;后期通过强化学习方式,使得决策模型能够稳定提升,最终超过基线机动决策模型水准。本发明将监督学习与强化学习相结合,提高策略模型的训练效率。

主权项:1.一种基于监督学习与强化学习的机动决策训练方法,其特征在于,包括以下步骤:S1:构建飞行仿真环境并设置飞行竞赛规则;S2:构建无人机基线机动决策模型θrule并基于飞行竞赛规则与另一基线机动决策模型进行飞行竞赛,记录飞行竞赛过程中的飞行数据,获得飞行数据集并采集飞行数据,其中表示第n局中第t时刻的数据;S3:构建神经网络决策模型θbc及损失函数Lθ,并对神经网络决策模型进行监督学习训练:神经网络决策模型θbc包括2层隐藏层,神经网络决策模型的输入为神经网络决策模型的输出为预测的无人机控制信息将步骤S2中的飞行数据集D输入构建的神经网络决策模型进行正向传播得到预测的无人机控制信息通过构建的损失函数Lθ将预测的无人机控制信息与真实的无人机控制信息进行反向传播,使得损失函数向全局最小方向更新,重复上述步骤直至损失函数收敛;S4:构建PPO决策模型并进行强化学习训练;S41、构建状态空间S、动作空间A、奖励函数R:状态空间S与数据类型一致;动作空间A与数据类型一致;奖励函数R为胜负奖励;S42、构建PPO决策模型中的Actor网络θA及Critic网络θc并初始化,所述初始化是将步骤S3中训练得到的神经网络决策模型θbc的隐藏层参数赋值给Actor网络θA与Critic网络θC;S43、训练PPO决策模型并进行数据采集。

全文数据:

权利要求:

百度查询: 中国航空研究院 一种基于监督学习与强化学习的机动决策训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。