首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于MADDPG算法的无人机数据收集方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中科润物科技(南京)有限公司

摘要:本发明涉及一种基于MADDPG算法的无人机数据收集方法,属于无线通信技术领域。该方法包括:S1:构建包含多个无人机以及多个传感器节点的无人机辅助的物联网数据收集系统,具体包括:建模无人机模型;建模传感器节点模型;建模信道模型;建模传感器节点关联变量;建模系统状态、动作和观测值;S2:建模系统代价函数:为由于缓冲区溢出和数据包到期而导致的丢包数量的相反数;S3:建模并训练MADDPG算法;S4:基于MADDPG算法确定无人机数据收集策略。本发明以最小化网络损失为优化目标,实现无人机数据收集轨迹及节点关联优化设计。

主权项:1.一种基于MADDPG算法的无人机数据收集方法,其特征在于,该方法具体包括以下步骤:S1:构建包含多个无人机以及多个传感器节点的无人机辅助的物联网数据收集系统,具体包括:S11:建模无人机模型;S12:建模传感器节点模型;S13:建模信道模型;S14:建模传感器节点关联变量;S15:建模系统状态、动作和观测值;S2:建模系统代价函数:为由于缓冲区溢出和数据包到期而导致的丢包数量的相反数;S3:建模并训练MADDPG算法;S4:基于MADDPG算法确定无人机数据收集策略;步骤S11中,建模无人机模型,具体包括:令表示无人机集合,其中Ui表示第i架无人机,1≤i≤I,I为无人机的数量;无人机飞行时高度固定为h,Ui在时隙t的位置为无人机从初始位置出发进行数据收集,能量耗尽前返回初始位置;无人机的最大速度为vmax;令表示Ui在时隙t的飞行方向,vi,t∈[0,vmax]表示Ui在时隙t的飞行速度;Ui在时隙t+1的二维位置投影为:其中τ为时隙长度;令BU表示无人机从初始位置起飞时的可用能量,无人机需在电量耗尽前返回初始位置;令表示Ui在时隙t的电池电量,的更新公式为:其中为Ui在时隙t的推进能耗,计算公式为: 其中P0和P0′为常数,Utip为转子叶片的叶尖速度,v0为无人机悬停时平均转子诱导速度,ξdrag和ξrotor分别为机身阻力比和转子可靠性,ρair和Srotor分别为空气密度和转子盘面积;步骤S12中,建模传感器节点模型,具体包括:令表示传感器节点集合,其中SNj表示第j个传感器节点,其位置表示为其中1≤j≤J,J为传感器数量;SNj从环境中收集数据,将数据包存放在有限缓存中,SNj的缓存容量为SNj在时隙t的队列长度为令表示新到达的数据包;每个数据包有其时间期限δj,当超过时间期限后,将被丢弃;令表示SNj在时隙t因数据包超时丢弃的数据包的数量;当SNj的缓存达到其容量,即后,当有新的数据包到达,将导致缓存溢出,SNj将丢弃排在队列前端的相同数量的数据包,令表示因数据溢出丢弃的数据包的数量;令表示SNj在时隙t成功上传的数据包数量;SNj的数据缓存队列更新公式为:传感器节点收集可再生能源,用于数据收集和数据传输;令表示SNj在时隙t的电池电量,表示节点的电池容量,SNj的电量更新公式为:其中表示SNj在时隙t收集的能量,表示SNj在时隙t的能耗;SNj在时隙t的能耗建模为:其中表示SNj收集数据的能耗,表示SNj在时隙t传输数据的能耗,其中Pj,t表示SNj在时隙t的传输功率;步骤S13中,建模信道模型,具体包括:Ui与SNj在时隙t的信道增益其中αe为路径损失系数,建模为高斯随机变量,为高斯变量的方差,e∈{LoS,NLoS}为传播参数;步骤S14中,建模传感器节点关联变量,具体包括:令δi,j,t∈{0,1}表示传感器节点关联变量,若δi,j,t=1,表示Ui在时隙t与SNj相关联,反之,δi,j,t=0;Ui在同一时隙最多与一个传感器节点进行关联,即SNj在同一时隙最多与一个无人机进行关联即其中T为总时隙长度;步骤S15中,建模系统状态、动作和观测值,具体包括:建模系统在时隙t的状态其中为无人机位置集合,vt={v1,t,…,vi,t,…,vI,t}为无人机速度集合,为无人机电池电量集合,表示无人机与传感器节点间相对位置的集合,其中表示Ui与所有传感器节点间相对位置的集合,表示Ui在时隙t与SNj之间的相对位置,qt={q1,t,…,qj,t,…,qJ,t}表示所有传感器节点缓存队列的集合,ht={h1,t,…,hi,t,…,hI,t}表示所有无人机与传感器节点间信道增益的集合,其中hi,t={hi,1,t,hi,2,t,...,hi,J,t}表示Ui与所有传感器节点间信道增益的集合;建模时隙t无人机的联合动作at={a1,t,...,ai,t,...,aI,t},其中建模时隙t无人机的联合观测值ot={o1,t,o2,t,...,oI,t},其中其中为示性函数,当δi,j,t=1时为1;步骤S2具体包括:建模多无人机数据收集系统中的代价函数Rt为时隙t由于缓冲区溢出和数据包到期而导致的丢包数量的相反数,即其中,为时隙t由于数据包到期而丢弃的数据包数量,为时隙t由于缓冲区溢出而丢失的数据包数量;步骤S3中,建模并训练MADDPG算法,具体为:初始化无人机的在线策略网络参数θμ、在线Q网络参数θQ、目标策略网络参数及目标Q网络参数初始化经验回放缓冲区;初始化随机过程χ,并对系统状态st进行初始化;对于Ui,利用其当前策略网络和随机过程选择动作其中μi为Ui的策略网络,为策略网络μi的参数,χi,t为随机噪声,将动作施加于系统环境,得到代价值Rt和下一时刻的状态st+1,并将其存入经验回放缓冲区D;从D中抽取一批样本,利用损失函数最小化更新无人机的在线Q网络;根据样本数据和在线Q网络生成的Q值,利用策略梯度更新公式更新其在线策略网络,其中为Ui对应Q网络的参数,x=o1,...,oI为所有无人机观测值的集合;通过软更新算法更新目标策略网络和目标Q网络的参数,具体为:其中ε<<1为目标网络的软更新参数。

全文数据:

权利要求:

百度查询: 中科润物科技(南京)有限公司 一种基于MADDPG算法的无人机数据收集方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。