Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多专家模仿学习的无人机控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及一种基于多专家模仿学习的无人机控制方法及系统,属于无人机技术领域,解决了现有因较难获取高质量专家数据而导致无人机控制决策不准确的问题。包括利用多个专家策略分别推演得到专家轨迹;构建生成对抗网络,包括一个策略生成器和多个判别器;通过策略生成器与无人机仿真环境交互采样模仿者轨迹,将模仿者轨迹分别与每个专家轨迹输入至一个判别器中,更新判别器参数并获取判别器的准确率;根据各判别器的准确率计算出奖励值更新策略生成器;与真实环境交互,采集并拼接无人机集群中各无人机状态向量,输入至训练好的策略生成器中,输出各无人机动作向量分发给对应无人机,实现对各无人机的控制。实现了无人机控制决策的准确率。

主权项:1.一种基于多专家模仿学习的无人机控制方法,其特征在于,包括以下步骤:基于无人机仿真环境,利用多个专家策略分别推演得到专家轨迹;构建生成对抗网络,包括一个策略生成器和多个判别器;所述判别器的数量与专家策略的数量相同;在训练过程中通过策略生成器与无人机仿真环境交互,采样模仿者轨迹,将模仿者轨迹分别与每个专家轨迹输入至不同判别器中,更新所述判别器参数并获取判别器的准确率;根据各判别器的准确率,计算出奖励值更新策略生成器;训练结束得到训练好的策略生成器;与真实环境交互,采集并拼接无人机集群中各无人机状态向量,输入至训练好的策略生成器中,输出各无人机动作向量,将各无人机动作向量转换为各指令分发给对应无人机,实现对各无人机的控制;所述判别器的准确率是专家准确率与模仿者准确率之和;其中专家准确率是指专家轨迹中的状态动作对被判别器判别为正确的概率,模仿者准确率是指模仿者轨迹中的状态动作对被判别器判别为正确的概率;对所述专家轨迹中的状态动作对,当判别器输出的判别值大于等于0.5时,认为被判别器判别为正确;对所述模仿者轨迹中的状态动作对,当判别器输出的判别值小于0.5时,认为被判别器判别为正确;所述根据各判别器的准确率,计算出奖励值,包括:将各判别器的准确率占所有判别器准确率之和的比率作为各判别器的专家可靠度系数,根据各判别器的专家可靠度系数和各判别器中模仿者轨迹对应的输出,通过以下公式计算奖励值: 其中,ri表示第i轮训练过程中的奖励值;n表示专家轨迹的数量,表示第i轮训练过程中第j个专家轨迹对应的判别器的专家可靠度系数;表示第i轮训练过程中第j个专家轨迹对应的判别器对模仿者轨迹中的状态动作对s,a输出的判别值;s表示轨迹中的状态向量,a表示轨迹中的动作向量。

全文数据:

权利要求:

百度查询: 中船智海创新研究院有限公司 一种基于多专家模仿学习的无人机控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。