买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京航空航天大学
摘要:本发明公开了面向多无人机辅助物联网数据收集的航迹规划和信道选择的方法,本发明引入了AoI来衡量信息收集的新鲜度,优化目标是通过联合优化多无人机航迹规划和信道选择来最小化物联网数据收集的AoI。该系统环境中的三维干扰来自于无人机和地面干扰机,考虑到环境的非稳定性,利用SAC的随机策略特性提出了一种基于多智能体强化学习的算法,命名为ITPCS‑DC,即用于数据采集的智能联合轨迹规划和通道选择。该算法能使得智能体在处于多维复杂干扰环境下避免陷入局部最优。仿真结果表明,ITPCS‑DC在累积奖励、信道切换代价、平均AoI以及航迹长度方面均优于其他基准算法。
主权项:1.面向多无人机辅助物联网数据收集的航迹规划和信道选择的方法,其特征在于,包括以下步骤:步骤1:设定无人机辅助物联网网络环境中存在若干个架无人机基站、若干个物联网设备、若干个信道、以及若干个地面干扰机,在每个回合中位置都是随机分配的,其中信道数量小于无人机基站数量,各无人机基站在每个时隙只能选择一个信道进行接入,并通过航迹规划来为有需求的物联网设备进行数据收集,同时,在飞行过程中避免碰撞以及避免超出设置的边界区域,步骤2:考虑J个地面干扰机环境下,U架旋翼无人机作为移动基站为G个物联网设备提供数据收集服务,在三维干扰环境中,无人机在预定高度范围和速度范围内飞行,无人机i在t时刻的位置物联网设备能随机移动,物联网设备j在时间t的位置表示为地面干扰机k在时间t的位置表示为但它不具备可移动性,网络中有C个信道,且CU,x、y、z分别为空间坐标系中的x轴坐标、y轴坐标和z轴坐标,T为时间上限,步骤3:由于各无人机的航行轨迹不一致,当无人机之间距离小于干扰门限距离dUU且选择了相同信道时,无人机之间产生频谱冲突,同理,当无人机与地面干扰机的距离小于干扰门限距离dUJ且选择了相同信道时,无人机与地面干扰机产生频谱冲突,因无人机位置发生实时变化,无人机之间会出现复杂变换的干扰关系,因此该系统是一个三维的动态干扰模型,步骤4:无人机i选择收集物联网数据的信道是根据环境状态、无人机位置、物联网设备位置以及干扰等因素来决定的,然后,通过该下行信道给物联网设备发送信道选择信息,最后,物联网设备j将根据该信道将大小为Qj,it的数据上传至无人机i,每个时刻t的长度记为τ秒,这也意味着无人机在收集数据的过程中上行链路和下行链路要共用相同的信道,为了避免干扰,使用时分多TDMA技术进行无人机控制信息的下传以及物联网设备数据的上传,步骤5:由于环境、建筑密度和高度,以及物联网设备与无人机之间的高程角,空对地通道受到视距链路LoS和非视距链路NLoS和小规模多路径衰落的影响,忽略小规模的衰落,在t时刻,空对地A2G信道模型的损耗表示为: 其中,di,jt为t时刻无人机i和物联网设备j的传播距离,αUG=3为A2G信道的路径损耗因子,ηNLoS=20dB为NLoS链路的附加衰减因子,步骤6:无人机i与物联网设备j在t时刻的LoS链路连通性概率表示为: 其中hdi,jt=||xit,yiy-xjt,yjt||表示无人机i到物联网设备j的水平距离,和是与传播环境类型相关的常数,而NLoS链路连通性的概率表示为步骤7:该系统中无人机i和物联网设备j之间的上行链路和下行链路通过TDMA方式共用相同的信道,因此,下行链路信道功率增益和上行链路信道功率增益表示为: 步骤8:t时刻物联网设备j到无人机i上行链路的信干噪比为: 其中,pj=0.1W为物联网设备j的传输功率,N0=-120dBm=10-15W为接收机处的高斯噪声的方差,步骤9:如果t时刻无人机i与无人机n选择了相同的信道,那么Ii,nt表示为t时刻无人机i受到无人机n的干扰,如果t时刻无人机i与地面干扰机k选择了相同的信道,Ii,kt为t时刻无人机i受到地面干扰机k的干扰,表示为: 其中pn=1W是干扰无人机n的发射功率,di,nt表示t时刻无人机i受到无人机n的干扰的距离,αUU=2为空对空A2A信道的路径损耗因子,pk=1W是地面干扰机k的发射功率,di,kt表示t时刻无人机i受到地面干扰机k的干扰的距离,步骤10:对于传输质量,设置一个信干燥比阈值kg,u=20dB,如果信干噪比大于该阈值,则认为物联网设备数据传输成功,因此,给出了无人机i接收机处的信干燥比的约束为: 步骤11:给定带宽B,t时刻物联网设备j到无人机i的传输速率表示为: 其中B=1MHz是信道带宽,步骤12:在无人机i接收机处,从干扰消除的角度来看,网络加权干扰表示为: 步骤13:在多信道无人机通信系统中,无人机i能通过选择不同的信道来减小与其他干扰源的干扰,但是频繁的切换信道不仅导致吞吐量下降,还造成不必要的能量损耗,甚至是通信中断,因此,网络的通信效用表示为: 其中C为信道跳变代价,fcit,cit-1表示无人机i当前时刻的信道选择cit与上一个时刻的信道选择cit-1是否相同,即: 步骤14:因此,整个任务的网络通信效用表示为: 步骤15:除了考虑网络通信效用,还考虑到各无人机在飞往目标点的过程中最小化航迹距离来降低飞行能耗,因此,整个过程的航迹距离表示为: 步骤16:同时,为了考虑无人机在飞行过程的安全性,设置无人机之间的飞行安全距离dsafe,因此,整个过程的危险系数为: 步骤17:因此,全网任务效用表示为: 步骤18:用AoI来衡量无人机收集物联网设备数据的及时性,t时刻无人机i从物联网设备j收集数据包的AoI为: 其中,是数据包生成的瞬间,x+=max{0,x},当时,说明,此时物联网设备j的数据还没有被采集,步骤19:为了便于分析,物联网设备j的AoI为将数据上传到无人机i所需的时间,该时间与上传速率相关,换言而之就是与物联网设备j到无人机i的距离、信道状态等相关,如果物联网设备j与无人机i的距离较近以及信道状态良好,则上传速率则更高,数据上传所需的时间也更少,反之,物联网设备j的AoI更大,因此,时刻t物联网设备j上传数据包到无人机i的AoI表示为: Qj,it+1=Qj,it-Rj,it*τ19其中,Qj,it表示为t时刻物联网设备j上传给无人机i的剩余传输数据量,Qj,i0=10Mbits,Rj,it为t时刻物联网设备j到无人机i的传输速率,步骤20:设置目标为:通过联合优化无人机航迹规划和信道选择,来最小化所有物联网设备上传数据的总AoI, 其中,ui,j表示无人机i服务于物联网设备j的航迹,ci,j表示无人机i服务于物联网设备j的信道选择,是服务于物联网j的无人机i的初始位置,式20b表示无人机从初始位置开始移动;V是无人机的飞行速度,δt是时间间隔,因此式20c表示服务于物联网j的无人机i在t+1时刻的位置状态取决于t时刻的位置状态和δt时间间隔内的飞行速度V;δd是服务于物联网j的无人机i和服务于物联网k的无人机n之间的安全距离,式20d表示t时刻任意两架无人机之间的距离要大于等于安全距离;ci,jt为服务于物联网j的无人机i在时刻t的信道选择,式20e表示任意时刻无人机i的信道选择都不为0,P0需要通过联合优化航迹规划和信道选择来最小化AoI,步骤21:定义多无人机环境下的强化学习关键要素:观测空间、动作空间和奖励函数,步骤22:建立一个ITPCS-DC框架来解决该模型,具体方法为:构建和训练多无人机辅助物联网数据收集的联合航迹规划和信道选择的MADRL算法网络模型;步骤22-1:多智能体强化学习用来解决建模为Markovgames的问题,所述的智能体为无人机,U架无人机的Markovgames由一个元组S,A,R,P,γ来定义,其中S表示环境的状态,A表示所有智能体的动作集合,R表示所有智能体获得的奖励集合,P表示状态转移概率,γ表示奖励折扣因素,在每个时刻,环境状态为st,每个智能体只能接收局部观测oit=bist,并根据局部观测选择动作ait=πioit,其中bi和πi表示智能体i的观察函数和策略,在选择动作后,智能体i会根据奖励函数设置从环境中获得奖励rt={r1t,r2t,…,rUt},rUt为第U个智能体获得的奖励,然后环境再根据状态转移函数pi转变到下一个状态st+1,无人机的目标是通过航迹规划和信道选择来最小化物联网设备数据采集的AoI,因此采用ITPCS-DC算法结合MAAC架构,同时依据SAC使用随机策略最大化累积奖励和熵值,ITPCS-DC算法结合MAAC架构中每个智能体中包含5个网络:一个actor网络用于分布执行,其中表示actor网络权重,actor网络的输入是智能体i的局部观测oi,输出为动作ai;四个critic网络用于集中训练,包含状态价值估计V网络以及状态-动作价值估计Q网络其中,st,at分别表示t时刻所有无人机的观测和动作,表示V网络权重,表示Q网络权重,ITPCS-DC算法还通过设置经验回放池和目标网络来减少训练过程的振荡,在每个时刻t都会将相应的经验元组ot,at,rt,ot+1存储到大小为的经验回放池中,如果经验回放池满了,新的经验元组将替换旧的经验元组,从经验回放池中批量采样对actor与critic网络进行训练,其中随机样本打破了序列样本之间的相关性,减少了训练振荡,此外,V网络和Q网络都有对应的target网络与online网络共享相同的架构,步骤22-2:使用SAC使累积奖励值和熵最大化,使得策略尽可能随机;步骤22-3:采用ITPCS-DC算法进行多无人机控制网络更新,步骤22-4:重复步骤22-1到步骤22-3,当达到设定的一个回合的训练步数时停止训练;步骤22-5:从步骤1中创建的U架无人机任务环境中选取未训练的无人机任务环境进行加载,重复步骤22-1到22-4,直到加载完设置的回合数后结束训练;步骤22-6:使用训练完成的联合多无人机轨迹规划及信道选择的MADRL算法模型实现多无人机为物联网设备进行数据收集最小化AoI。
全文数据:
权利要求:
百度查询: 南京航空航天大学 面向多无人机辅助物联网数据收集的航迹规划和信道选择的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。