首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于CEL-MADDPG的多无人机围捕策略方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。

主权项:1.一种基于CEL-MADDPG的多无人机围捕策略方法,其特征在于包括下述步骤:步骤1:设定无人机状态信息:步骤2:设定无人机的动作信息和无人机的状态更新过程:通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度控制;因此,设定无人机动作状态信息为:A=[Fx,Fy]其中,Fx,Fy分别表示无人机在x、y轴上的受力,则无人机的加速度表示为:a=[ax,ay]=[Fx,Fy]mu其中,ax,ay分别表示无人机在x、y轴上的加速度,mu表示无人机质量;基于无人机受力的无人机状态更新过程表示为: 其中,其中上标t表示时间,pt,vt,分别表示t时刻我方无人机的位置信息、速度信息和偏航角,xt-1,yt-1分别表示t-1时刻我方无人机在x、y轴上的位置,分别表示t时刻我方无人机在x、y轴上的速度分量,分别表示t-1时刻我方无人机在x、y轴上的速度分量,△t表示无人机运动时间间隔,a为无人机加速度,分别表示t时刻无人机加速度在x、y轴上的加速度分量;步骤3:定义奖励函数R:步骤4:结合课程学习策略,优化无人机奖励函数:在围捕课程学习中,引入课程奖励rcourse用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习;步骤4-1:设定目标追踪子任务判定条件为: 其中,dcapture表示单机捕获距离,dlimit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值,当满足该条件时,课程奖励rcourse等于目标追踪子奖励rtrack,此时设定目标追踪子奖励为: 其中,dmax为任务场景中目标与无人机的最大距离值;步骤4-2:设定包围过渡子任务判定条件为: 其中,表示无人机i、无人机i+1、目标E构成的三角形面积,U0和Un都用于表示最后一个即第n个无人机,当满足该条件时,课程奖励rcourse等于包围过渡子奖励rencicle,此时设定包围过渡子奖励为: 步骤4-3:设定靠近捕获子任务判定条件为: 当满足该条件时,课程奖励rcourse等于靠近捕获子奖励rcapture,此时设定靠近捕获子奖励为: 其中,和分别表示t时刻和t-1时刻无人机i到目标的距离;步骤4-4:对于每个无人机,更新其受到的总奖励为: 其中,β1~β4表示四项奖励的相应权重值;步骤4-5:设定多无人机围捕判定条件:当目标处于多无人机围捕网内,且目标与各围捕无人机距离都小于捕获距离dcapture时,视作目标无法逃逸,此时多无人机围捕任务完成;步骤5:引入相关性学习策略,基于深度强化学习CEL-MADDPG算法,构建多无人机围捕决策模型并进行训练,通过CEL-MADDPG神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的靠近、包围、捕获。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于CEL-MADDPG的多无人机围捕策略方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。