首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种基于DQ‑CapsNet的无人机自助路径规划和避障策略方法,首先设定无人机状态信息,再设定无人机的动作信息和无人机的状态更新过程;然后定义奖励函数,引入胶囊网络算法,构建深度强化学习网络DQ‑CapsNet网络:最后基于DQ‑CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;本发明对提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率,且构建的无人机路径规划与避障模型具有更好的规划性能。

主权项:1.一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法,其特征在于,包括如下步骤:步骤1:设定无人机状态信息;无人机的状态信息S设定为:S=[Suav,Sdetect,Senvir]其中,Suav,Sdetect,Senvir分别表示无人机自身状态信息、自身探测状态信息和环境状态信息;设定任务场景宽度和长度分别为lwidth和llength,无人机的最大飞行高度为hmax;设定无人机自身状态信息为: 其中,x,y,z分别表示无人机在x,y,z轴上的坐标信息,vx,vy,vz分别表示无人机在x,y,z轴上的速度信息,vmax为无人机最大速度;分别利用j个距离传感器和j个高度传感器对无人机周围环境进行探测;设定无人机自身探测状态信息为:Sldetect=[Tl1,Tl2,…Tlj]DTlShdetect=[Th1,Th2…Thj]DTh其中,Sldetect为无人机自身距离探测状态信息,Tl1~Tlj表示无人机的各距离传感器示数,DTl表示距离传感器探测范围;Shdetect为无人机自身高度探测状态信息,Th1~Thj表示无人机的各高度传感器示数,DTh表示高度传感器探测范围;设定无人机环境状态信息为:Senvir=[di,σi]其中di和σi分别表示无人机与障碍物i的距离和水平相对方位角;步骤2:设定无人机的动作信息和无人机的状态更新过程;通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度的控制;因此,设定无人机的动作状态信息为:AF=[Fx,Fy,Fz]其中Fx,Fy,Fz分别表示无人机在x,y,z轴上的受力,则无人机的加速度表示为:a=[ax,ay,az]=AFmuav=[Fx,Fy,Fz]muav其中,ax,ay,az分别表示无人机在x,y,z轴上的加速度,muav表示无人机的质量;基于无人机受力的无人机状态更新过程表示为: 其中,其中上标t表示时间,Pt、Vt、分别表示t时刻无人机的位置信息、速度信息和偏航角,xt-1,yt-1,zt-1分别表示t-1时刻无人机在x、y、z轴上的位置分量,分别表示t时刻无人机在x、y、z轴上的速度分量,分别表示t-1时刻无人机在x、y、z轴上的速度分量,dt表示无人机运动时间间隔,分别表示t时刻无人机加速度在x、y、z轴上的加速度分量;定义无人机动作空间:A=E[e1,e2,...e7]其中e1,e2,...e7表示三维空间内无人机七种动作即上、下、前、后、左、右、悬停,网络执行动作状态信息选取无人机下一刻动作;步骤3:定义奖励函数R;步骤3-1:设定无人机靠近目的地奖励; 其中,xt,yt,zt分别表示t时刻无人机在x、y、z轴上的位置分量;xo,yo,zo分别为目的地的三维坐标位置;Po为目的地的位置;步骤3-2:设定无人机安全飞行奖励; 其中,表示无人机到障碍物i的距离,表示无人机与障碍物i的最小安全距离;表示无人机到障碍物i的高度,表示无人机到障碍物i的最小安全高度;步骤3-3:设定无人机任务完成奖励; 其中,rdestin为设定的到目的地的边界范围,当无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地;xo,yo,zo分别为目的地的三维坐标位置;步骤3-4:设定无人机受到的总奖励为:R=ρ1Rclose+ρ2Rsafe+ρ3Rfinish其中,ρ1~ρ3表示三项奖励的相应的权重值;步骤3-5:设定无人机路径规划与避障判定条件:当无人机位于目的地附近且无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地,此时无人机路径规划与避障任务完成;步骤4:引入胶囊网络算法,构建深度强化学习网络DQ-CapsNet网络;所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架;深度强化学习DQN框架包括Experiencereplay经验池、当前动作值网络和目标价值网络;胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法;由深度强化学习DQN框架改进后得到DQ-CapsNet网络包括以下步骤:步骤4-1:构建状态特征提取层:特征提取层由一层卷积层构成Conv1,卷积核大小、输入维度、输出维度、滑动步长如下所示,采用Relu激活函数:Conv1:5×5,1,256,2;步骤4-2:构建融合PrimaryCapsule层:该层采用PrimaryCapsule胶囊层构成,将Conv1层的输出Co展平为的矢量,其中为该层的胶囊的数量,为该层胶囊的维度;将展平的矢量进行维度变换得到低层胶囊Clower;该层使用的卷积核大小,输入维度、输出维度、滑动步长如下所示:PrimaryCapsule:9×9,256,8,2;步骤4-3:低层胶囊动态路由Routing算法处理:对低层胶囊Clower采用动态路由算法,初始化低层胶囊Clower中向量vp与高层胶囊Chigh中向量up|q的连接概率参数bqp=0,设置算法迭代次数riter次开始迭代,得到向量加权求和的权重参数cqp: 得到低层胶囊p层中向量:vp=∑qcqpup|q然后将向量vp输入非线性函数squash得到输出向量υp: 更新连接概率参数bqp=bqp+up|qυp;迭代riter次后输出由高层特征向量υp组成的高层胶囊Chigh;步骤4-4:构建DigitCapsule数字胶囊层:初始化关系矩阵W,该层的输入为维的高层胶囊Chigh,对高层胶囊Chigh中的特征向量继续采用动态路由算法,得到本层输出:υdim=Wdimυp其中,υdim是一个的矢量矩阵,为矩阵Wdim的维度,为高层胶囊的个数;步骤4-5:网络增加第四层全连接层Fully层,降低由DigitCapsule数字胶囊层输出的矩阵的维度,得到无人机飞行动作输出;步骤5:基于DQ-CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;步骤5-1:构建无人机动作值网络Qs,a;θ,基于θ←θ′,同步参数至目标价值网络步骤5-2:初始化超参数:经验回放池大小为N,采样大小为Sbatch,每回合最大步长为T,奖励折扣因子γ,最大回合数为M,训练频次为C,批处理数Bsize,网络学习率lr,路由算法迭代次数riter,目标网络更新间隔Tp,设定初始回合数ep=0;步骤5-3:初始化无人机的状态s1={x1}和状态预处理队列φ1=φ1s1,更新当前时刻为t=0;其中,x1为初始时刻系统状态;步骤5-4:对于每个无人机,如已有策略则根据策略ε选取t时刻动作at,否则at=argmaxaQφst,a;θ;步骤5-5:无人机与环境交互执行动作at后,得到奖励值rt,得到下一时刻状态st+1={xt+1};设置t+1时刻无人机状态st+1=st,动作at,t+1系统状态xt+1和状态预处理队列φt+1=φst+1;步骤5-6:存储经验样本φt,at,rt,φt+1于经验回放队列中;步骤5-7:根据采样Sbatch个φg,ag,rg,φg+1样本数据,其中c表示被抽取的经验样本的序号,pc表示优先级,参数α为用于调节样本优先采样程度的参数;计算目标值: 其中,γ为奖励折扣因子,a′为下一时刻无人机的动作;通过损失函数对在线价值网络进行更新:Lθ,k=E[yg-Qs,a,θ2+βTkmax0,m+-||ak||2+λ1-Tkmax0,||ak||-m-2]其中,yg为目标值;γ为奖励折扣因子;s,a分别表示此刻的状态和动作,Qs,a,θ为价值函数,θ表示逼近函数的网络参数,在此采用胶囊网络逼近,θ为CapsNet网络的权值,采用CapsNet网络的权值作为Qs,a,θ的网络参数;β为组合系数;Tk表示下一时刻k类动作是否存在,存在为1,不存在为0;m+为惩罚假阳性动作ak因子;m-为惩罚假阴性动作ak因子;步骤5-8:更新无人机智能体目标价值网络参数:θ′=τθ+1-τθ′其中,τ表示更新比例系数;步骤5-9:更新步长t+1,执行条件判定:当tT且不满足步骤3-5所示无人机路径规划与避障条件时,进入步骤5-4;否则进入步骤5-10;步骤5-10:更新回合数ep加1,执行判定:若epM,则更新步骤至步骤5-3;否则,训练完成,进入步骤5-11;步骤5-11:终止DQ-CapsNet网络训练过程,保存当前网络参数;将保存好的参数加载至无人机路径规划与避障系统中;每一时刻,无人机分别将其状态信息输入至神经网络中,通过DQ-CapsNet神经网络进行拟合,输出无人机飞行动作,使无人机能够在环境中进行路径规划和避障。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。