首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于策略网络强化学习的多类型服务资源编排方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明公开了一种基于策略网络强化学习的多类型服务资源编排方法,属于通信技术领域,包括以下主要步骤:步骤1:映射业务首节点;步骤2:将特征矩阵输入强化学习模型中;步骤3:输出候选动作概率;步骤4:选择最大概率动作映射;步骤5:将业务需要映射的下一节点和与上一节点之间的直连链路作为一个元组同时映射,重复步骤2‑4,直至业务全部节点均已映射,判断业务是否映射完成;步骤6:若业务映射完成,计算收益成本比;否则映射剩余链路,重复步骤2‑4直至业务映射完成,计算收益成本比;步骤7:计算损失函数损失值,策略梯度法更新强化学习模型参数。本方法可以提高平均节点服务资源利用率,同时降低业务阻塞率,减少服务提供商成本消耗。

主权项:1.一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于,包括以下步骤:步骤1:映射业务请求Gr首节点;步骤2:将物理网络节点特征矩阵节点-路径特征矩阵路径特征矩阵输入强化学习模型PNRL-Model中;所述物理网络包含物理节点和链路的物理网络拓扑,其中物理节点属性包括节点资源类型、节点剩余资源量、节点度、相邻链路剩余带宽和、平均距离;所述节点剩余资源量为物理网络节点当前可用的资源量,即节点总资源量减去被已经映射的业务占用的资源量;所述节点度如下式: 所述相邻链路剩余带宽和,如下式: 目的节点到已被业务请求中虚拟节点映射的物理网络节点之间的平均距离,如下式: 表示二进制决策变量,如果将第r个业务请求中的虚拟节点ir映射到物理网络节点is,值为1,否则为0;物理链路属性包括带宽剩余量和丢包率;物理网络路径属性包括带宽剩余量、带宽剩余率、跳数和丢包率,所述带宽剩余量,如下式: 带宽剩余率,如下式: 表示二进制决策变量,如果物理网络源节点as到目的节点bs的第k条物理路径包含物理链路js,值为1,否则为0;丢包率如下式: 节点特征矩阵,包含节点剩余资源量、相邻链路剩余带宽和、节点度和候选节点到已映射节点的平均距离,如下式: 节点-路径特征矩阵包含目的节点剩余资源量、相邻链路剩余带宽和、节点度、候选节点到已映射节点的平均距离,源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,如下式: 路径特征矩阵包含源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,如下式: 上式中,R表示业务请求的集合,Vr表示业务请求Gr的虚拟节点集合,Er表示业务请求Gr的虚拟链路集合,T表示物理网络中所有节点的资源类型,和分别表示业务请求Gr中虚拟链路jr的带宽需求和容忍丢包率,其中Vs表示节点集合;Es表示链路集合;表示物理网络节点is第t种类型的剩余资源量,其中和分别表示物理网络中链路js的带宽总量和带宽剩余量,其中分别表示路径的剩余带宽、带宽剩余率、丢包率和跳数,Psas,bs表示物理网络源节点as到目的节点bs的无环路径集合,K=|Psas,bs|,其中bs∈Vs,as≠bs;分别表示物理网络节点is的相邻链路集合、相邻链路剩余带宽和和节点度,其中表示业务请求Gr的请求节点i'r在物理网络Gs中的候选节点集合,且SPas,bs表示物理网络源节点as到目的节点bs之间最短路径的跳数;表示物理网络目的节点bs到已被业务Gr中虚拟节点映射的物理网络节点之间的平均距离;业务请求的收益成本比为映射成功业务的节点请求资源量和链路请求带宽之和比映射成功业务节点占用资源量和链路占用带宽之和;优化目标是最大化请求的收益成本比;约束条件有:1节点资源约束:业务请求的虚拟节点映射到的物理网络节点对应资源类型的剩余资源量必须大于对应资源类型的请求资源量;2节点一对一映射约束:同一业务请求内不同的请求节点不可映射到同一物理网络节点上;3带宽约束:业务请求链路映射到的物理网络路径剩余带宽必须大于请求带宽;4丢包率约束:业务请求链路映射到的物理网络路径的最大丢包率必须小于对应请求链路的容忍丢包率;所述强化学习模型PNRL-Model:包含输入层、卷积层、Softmax层、过滤层和输出层;步骤2.1:将物理网络节点特征矩阵节点-路径特征矩阵路径特征矩阵输入到强化学习模型PNRL-Model的输入层,使用离差标准化方法进行归一化;步骤:2.2:将归一化后的节点特征矩阵IN归一化后的节点-路径特征矩阵INP归一化后的路径特征矩阵IP输入策略网络卷积层,生成每个动作的可用资源向量CNCNPCP;步骤2.3:将所有动作的可用资源向量CNCNPCP输入Softmax层,将每个动作的可用资源向量转化成每个动作被选择的概率步骤2.4:过滤掉不满足节点资源约束、一对一约束、带宽约束和丢包率约束的动作;步骤2.5:将不满足约束动作的概率记为0;步骤2.6:输出候选动作以及相对应的候选节点概率PN候选节点路径元组概率PNP候选路径概率PP;所述卷积层的作用是将归一化后的特征矩阵ININPIP执行卷积运算,ωNωNPωP为卷积核权重向量,bNbNPbP为偏置项;对归一化后的节点特征矩阵IN进行卷积操作: 对归一化后的节点-路径特征矩阵INP进行卷积操作: 对归一化后的路径特征矩阵IP进行卷积操作: 将节点可用资源向量转化成每个候选节点被选择的概率: 其中g表示向量CN中元素的索引,代表第几个元素,表示向量CN中第g个元素cN,g的指数次方;将节点路径元组可用资源向量转化成每个候选节点路径元组被选择的概率: 表示向量CNP中第g个元素cNP,g的指数次方;将路径可用资源向量转化成每条候选路径被选择的概率: 表示向量CP中第g个元素cP,g的指数次方;所述强化学习模型PNRL-Model的奖励函数为业务的收益成本比;强化学习模型PNRL-Model的损失函数为: Loss3=-logmaxpP,1,pP,2,…,pP,KLoss=Loss1+Loss2+Loss3;步骤3:强化学习模型PNRL-Model输出候选节点概率PN候选节点路径元组概率PNP候选路径概率PP;步骤4:选择最大概率的动作进行映射,并更新物理网络Gs;步骤5:将业务请求需要映射的下一节点i+1r和与上一节点ir之间的直连链路jr作为一个元组同时映射,重复步骤2到步骤4,直至业务请求所有节点映射完成,并判断业务请求Gr是否映射完成;步骤6:若业务请求Gr映射完成,计算业务的收益成本比;否则映射剩余链路,重复步骤2到步骤4直至业务请求Gr映射完成,计算业务的收益成本比;步骤7:计算损失函数损失值Loss,使用策略梯度方法更新强化学习模型PNRL-Model的参数。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于策略网络强化学习的多类型服务资源编排方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。