买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种小区关联、轨迹规划和卸载调度联合动态决策方法,包括每个时隙开始时,通过构造的分层决策结构,根据观测到的所有无人机的位置和无人机、基站以及小区内所有用户的平均数据积压,基站选择小区关联方案,无人机选择轨迹规划方案,用户设备选择卸载调度动作。通过与环境的信息交互,各无人机、各基站和地面多用户学习联合无人机轨迹规划方案、小区关联方案和用户任务卸载调度的最优策略。本发明可用于大规模多层次无人机和基站协同为地面用户设备提供卸载的网络场景模型下的基站小区关联决策、无人机在线轨迹规划和用户任务卸载调度。
主权项:1.一种小区关联、轨迹规划和卸载调度联合决策方法,其特征在于,所述小区关联轨迹规划和卸载调度联合决策方法面向多址边缘计算,包括以下步骤:S1,将持续时间T划分为N个相等时隙,各决策代理基站、各决策代理无人机、各决策代理用户设备的状态在一个时隙内保持恒定;S2,每个时隙开始时,基于空地协同网络框架,将空地协同网络中的联合决策问题转化为自上而下共三层的分层决策,三种决策任务包括小区关联、轨迹规划和卸载调度,它们分别组成分层结构的顶层、中间层和底层;根据观测到的所有无人机的位置和无人机、基站以及小区内所有用户的平均数据积压,基站决策小区关联方案,无人机决策轨迹规划方案,用户设备决策卸载调度动作;具体地,在每个时隙t内,小区基站根据策略网络生成小区关联方案,并将其传输到拟建立连接的无人机,由无人机根据策略网络生成无人机轨迹规划方案;定义时隙间隔Δ,小区基站每隔Δ个时隙重新制定小区关联调度,用户设备在每个时隙τ内依据基站下发的最新小区关联调度指令执行卸载调度;当无人机的轨迹规划确定后,在随后的Δ个时隙内飞行方向始终不变,直至新一轮的轨迹规划生成;S3,采用基于平均场理论的异构联合决策,对动态环境下的小区关联、无人机轨迹规划和用户卸载调度问题进行马尔可夫建模,在小区关联决策中基于平均场理论将基站代理之间的相互作用等价于单个基站和邻近基站组成的群体的平均效应之间的相互作用,通过与环境的信息交互,地面基站、无人机与用户学习得到联合最优策略;步骤S3中,通过与环境的信息交互,地面基站、无人机与用户学习得到联合最优策略的过程包括以下步骤:S31,获得决策代理基站的状态、策略网络参数和价值网络参数;获取各决策代理无人机的状态、策略网络参数和价值网络参数;获取各决策代理用户设备的状态、策略网络参数和价值网络参数;各网络的字典初始化为空矩阵;S32,时隙t中,各小区基站j获得状态观测,包含无人机共同组成的位置矩阵、基站和无人机的任务数据积压值以及时隙t内小区j中所有用户的平均数据积压,并根据策略网络生成小区关联方案,计算新的平均动作;具体地,考虑离散的动作空间,D代表所有的可能动作数目,假定动作用one-hot编码的方式表示为aj中的每个元素都对应一种动作;决策代理k的动作表示为邻域平均动作和扰动项λaj,k的和,在当前博弈状态下求解邻域的平均动作为决策代理j的邻域所采取动作的经验分布,其中每个元素代表每个动作的邻域平均动作;基于邻域里智能体上个时刻策略决定的动作取平均,式中Nj表示小区j的用户数量,动作ak的选择服从策略其中是上一次决策使用的平均动作,s是当前的状态;各小区基站将联合小区关联方案传输到拟建立连接的无人机;决策代理无人机获得状态观测并根据策略网络生成无人机轨迹规划方案;在接下来的Δ个时隙中,各无人机飞行到达新的位置,并将位置信息以及任务队列信息传输给关联小区的用户设备;用户设备m获得状态观测,并根据策略网络生成用户卸载调度动作;其中,在时隙结束时,设备根据获得的奖励计算各决策代理的时间差分误差,更新用户设备决策代理的策略网络和价值网络;当Δ个时隙后,小区关联方案和轨迹规划方案结束;基站根据获得的奖励计算基站决策代理的时间差分误差,更新基站决策代理的策略网络和价值网络,并根据状态生成新的小区关联方案;无人机根据获得的奖励计算无人机决策代理的时间差分误差,更新无人机决策代理的策略网络和价值网络,并根据状态生成新的航迹规划方案;S33,在每个时隙重复上述步骤S32直至收敛,输出动作选择决策作为最优决策。
全文数据:
权利要求:
百度查询: 南京航空航天大学 一种小区关联、轨迹规划和卸载调度联合动态决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。