Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度确定性策略梯度算法的卫星互联网资源调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及一种基于深度确定性策略梯度算法的卫星互联网资源调度方法,该方法首先提出了一种基于TEG的星上SFC分流机制。其次,在TEG分流模式下,建立了流量守恒约束,并结合资源容量约束和流速非负性约束,构建了SFC的最小流速率最大化模型。然后,由于流量工程问题属于连续动作,因此采用基于DDPG的SFC流量工程方法对该问题进行求解。仿真结果表明,TEG分流机制可以有效提升最小流速率,并且与基准方法比较,所提方法的性能更优,且收敛速度优于基准方法。

主权项:1.一种基于深度确定性策略梯度算法的卫星互联网资源调度方法,其特征在于:包括如下步骤:S1:建模一个多卫星节点多服务功能链SFC的卫星网络SDSN,令SDSN表示为有向图GV,E,其中V是节点的集合,E是链路的集合,E包括物理链路集Evv和卫星在相邻时隙之间的储存链路集Ev;时间演化图TEG将总时间划分为T个时间间隙,每个时隙的长度为η,令t∈T表示为时隙的索引,在TEG中,用it,jt∈Evv表示两颗不同卫星之间的物理链路,用it,it+1∈Ev表示同一颗卫星的连续时隙之间的存储链路;令K={1,2,...,k,...}表示SDSN中的SFC请求集合,对于k∈K,表示VNFs的有序集合,表示第k个SFC的第n个VNF;最后一个VNF表示为m表示VNFs的个数;和分别表示第k个SFC的源节点和目的节点;S2:假设在同一个时隙内,只能部署在一个卫星节点上,将VNF部署约束建模为: 其中it表示卫星节点i在第t个时隙的副本,为VNF部署指示变量,表示第个VNF部署的位置为节点it,反之则表示第个VNF部署的位置不在节点it上;定义yk为第k个SFC的流量速率,定义变量为第k个SFC在链路it,jd∈E的流量速率,其中,表示第k个SFC在链路it,jt∈Evv的流量速率,表示第k个SFC在链路it,it+1∈Ev的流量速率;流量速率表示为: 其中表示第k个SFC在通过第个VNF后,链路it,jd∈E的流量速率,表示一个位于源节点上的辅助VNF,标识尚未经过任何VNF处理的SFC流;S3:卫星节点的计算资源约束建模为: 其中表示在链路jd,it上通过第个VNF处理后的流量速率,表示节点it的计算资源容量;表示单位数据流速的计算资源需求;此外,链路的带宽资源容量表示为: 其中表示链路it,jt的带宽资源容量,表示第k个SFC在链路it,jt∈Evv的流量速率;S4:分情况构建关于TEG分流模型的流守恒约束条件;S5:设置最大化所有SFC的最小流速率ymin为优化目标: 对SFC的流量速率以及每个SFC各个阶段的流量速率施加非负性约束,并建模为:yk≥0 S6:将SDSN网络的控制器作为对SFC部署进行集中控制的智能体,将优化问题建模为适用于深度强化学习求解的MDP模型,定义状态空间、动作空间及奖励函数;S7:基于DDPG模型求解S6构建的MDP模型,得到最优SFC部署;所述DDPG方法包括Actor网络、Critic网络以及经验回放池,Actor网络的当前网络πs及其目标网络π′s的参数分别为θπ和θπ′,Critic网络的当前网络Qs,a及其目标网络Q′s,a的参数分别为θQ和θQ,Actor网络负责动作筛选以及策略制定,并分别根据策略梯度上升和损失函数的梯度下降更新Actor网络和Critic网络参数,Critic网络负责对生成的策略进行评估,经验回放池用来储存状态st,动作at,rt和下一个状态st+1构成的经验元组;初始化Actor网络和Critic网络的参数以及经验回放池,在每一轮迭代中更新Actor网络和Critic网络的参数;向DDPG方法输入st,从Actor网络中得到at,将at应用到st中,SDSN控制器进行SFC部署,此时得到rt并更新st+1,将st,at,rt,st+1作为一个经验元组保存到经验回放池中,当经验回放池填满后,最早的经验元组将会被新的经验元组替代;从经验回放池中随机选取小批量经验元组进行训练,在最大化期望累计折扣奖励的目标下,通过梯度求解进行Actor网络和Critic网络的参数更新,期望累计折扣奖励是指在策略执行过程中,从当前状态开始,未来所有可能得到的奖励之和的期望值;状态-动作值函数Qπst,at用来估计给定状态和动作下的期望累计折扣奖励; 通过Actor网络和Critic网络的参数更新指导SDSN控制器在下一轮迭代中更好地进行SFC部署,直到训练轮次到达设定的最大值,优化任务的期望累计折扣奖励最大化,表示训练结束,并得到最优SFC部署。

全文数据:

权利要求:

百度查询: 重庆大学 基于深度确定性策略梯度算法的卫星互联网资源调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。