首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的无人机辅助无人艇任务卸载方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学秦皇岛分校

摘要:本发明涉及海洋无线通信技术领域,公开了基于深度强化学习的无人机辅助无人艇任务卸载方法,包括以下步骤:建立移动边缘计算的三维无线通信网络系统模型,所述系统模型包括K个USV,其集合表示为k∈{1,2,....,K},k表示该集合中的某一个USV,1架搭载MEC边缘服务器的无人机U={u},通过无人机对USVk进行计算卸载以节省USVk的计算的能耗并缩减任务执行延迟;建立时延模型与能耗模型;无人机调度和卸载策略联合优化问题;提出基于深度强化学习的OU‑TD3算法。本发明中,采用深度强化学习相比传统算法在无人机辅助USV进行边缘计算的任务卸载中能够更好地适应复杂、实时的任务需求,提高了系统的智能化和效率。

主权项:1.基于深度强化学习的无人机辅助无人艇任务卸载方法,其特征在于:包括以下步骤:S1、建立移动边缘计算的三维无线通信网络系统模型,所述系统模型包括K个USV,其集合表示为k∈{1,2,....,K},k表示该集合中的某一个USV,1架搭载MEC边缘服务器的无人机U={u},通过无人机对USVk进行计算卸载以节省USVk的计算的能耗并缩减任务执行延迟;设定UAV执行某次任务的周期为T,将整个通信周期T划分为N个时隙,每个时隙等长且长度为δ=TN,第n个时隙满足集合n∈{1,2···,N};USVk的坐标为Lkn=[xkn,ykn,0]T,USVk的通信调度约束表示为: USVk将一部分计算任务卸载给服务器后,剩余的计算任务在本地计算;则第n个时隙末,无人机飞行到新的悬停位置表示为:Qun+1=[xun+1,yun+1,H]T∈R3×1;无人机在第n个时隙飞行的角度为θn∈[0,2π],θn是表示UAV在x-y平面平面相对于x轴的水平方向,飞行的速度为vn∈[0,vmax],一个时隙内UAV的飞行时间为tflyn=tfly,其中tfly为固定值;因此UAV的水平移动距离可以表示为:xun+1=xun+tflyvncosθn;yun+1=yun+tflyvnsinθn;UAV与USVk之间的视距链路的信道增益可表示为: 其中β0可以表示参考距离d=1m处的信道增益,du,kn表示UAV与USVk之间的欧几里得距离: 当UAV悬停时,UAV与USVk进行通信,则无人机的无线传输速率ru,kn表示为: 其中B表示分配的通信带宽,假设所有的USVk的发射功率Pup,kn=Pup为固定值,σ2表示噪声功率;S2、建立时延模型与能耗模型;S3、无人机调度和卸载策略联合优化问题:通过联合优化无人机的通信调度τkn,无人艇任务卸载决策Rkn、无人机飞行速度vn、无人机飞行角度θn,提出无人机与无人艇计算能耗与时延加权的最小化问题;其优化问题可以表示为: Qun∈{xun,yun|xun∈[0,X],yun∈[0,Y]};Lkn∈{xkn,ykn|xkn∈[0,X],ykn∈[0,Y]};Ttotal,kn≤ΔT;0≤vn≤vmax;γuav,kn≥γth; 引入λe和λt分别代表系统总时延和能耗对其进行无量纲化处理,同时引入权衡因子α,对于USV在不同场景中执行的任务,无人机在一个时隙内只与一个USVk通信、任务卸载比的范围、无人机与无人艇的只能在限定的区域移动、每个时隙中系统的计算时间不能大于该任务的最大容忍延迟、C7约束表示无人机不能超过最大速度、UAV与USVk进行通信的信噪比不能低于其阈值、系统在整个周期需要处理一定的任务数据量C、任务决策期间UAV的剩余电量必须支持其飞行和计算;S4、基于深度强化学习的OU-TD3算法:1混合噪声自适应算法基于混合噪声的Actor网络输出动作at可以表示为: 其中var是高斯方差,以确保Agent在每个场景中具有均匀和稳定的检测能力;同时,随着训练过程的进行,Agent开始适应任务场景,这就要求探索率逐渐降低,如公式所示:var=var×0.9997;2构建MDP将优化目标描述为MDPMarkovdecisionprocess;通常,MDP可以表示为元组M=S,A,P,R,其中S是状态空间,A是动作空间,Pst+1|st,at是转移概率,并且Rst,at是在动作at∈A被执行之后的瞬时奖励函数;本发明的目的是寻求一个最优策略π*·,使长期累计奖励最大化,可以定义为其中γ∈[0,1]表示折扣因子,对于越长远的未来,给与奖励打的折扣越大;3OU-TD3算法架构OU-TD3算法包含一个权重为φ的Actor主网络μs|φ,两个权重分别为θ1和θ2的Critic主网络以及权重为φ'的Actor目标网络μ's|φ',权重为θ′1和θ′2的Critic目标网络Actor网络作为一个策略网络,即行动者产生行动,并通过最大化累积期望奖励来更新参数φ;Critic网络充当Q网络,即Critic,评估演员的表现,指导演员的下一个动作,并通过最小化评估值和目标值之间的损失误差来更新其参数θi值;S5、仿真与性能分析:进行数值模拟,以评估无人机辅助MEC系统中的OU-TD3计算卸载算法的性能;首先给予一个详细的描述的模拟参数;随后,在不同权重、不同任务规模、不同带宽条件和不同USVs计算能力下,将该算法与其他五种基准算法的平均计算开销进行了比较分析。

全文数据:

权利要求:

百度查询: 东北大学秦皇岛分校 基于深度强化学习的无人机辅助无人艇任务卸载方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。