买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东华大学
摘要:本发明提供的一种基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统,包括步骤:根据认知车辆的行驶状态及地理分散程度,计算得到所述认知车辆的优先级服务顺序列表;基于所述优先级服务顺序列表,使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架;使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程,以得到所述认知车联网的最优频谱分配方案。本发明提供的一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法,可以实现未知网络流量环境下频谱调度方案的自适应学习,快速给出近似最优解,极大地改善了蜂窝网络内认知车辆用户的链路容量和通信质量,提高了频谱资源的利用率。
主权项:1.一种基于行驶状态优先级和场景模拟的CVN频谱调度方法,其特征在于,包括以下步骤:S1:根据认知车辆的行驶状态及地理分散程度,计算得到认知车辆的优先级服务顺序列表;S2:基于优先级服务顺序列表,使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架,包括以下步骤:根据以下公式定义马尔可夫决策过程的状态空间和动作空间: 式中,sv表示节点v的状态值,其由λv、ξv组成;表示基站侧的剩余带宽向量,表示信道m的剩余带宽;表示请求被分配的认知车辆个数;ξv表示个认知车辆的总带宽要求;动作am表示智能体将信道m分配给当前可进入分配序列的一辆车;M表示信道总数;基于状态空间和动作空间,构建蒙特卡洛搜索树,该蒙特卡洛搜索树由节点和边组成:每个节点都维护一个节点状态值,包括节点被访问的次数、环境状态值以及节点获得的累计奖励值;边表示导致状态转换的动作;按照优先级服务顺序列表依次对认知车辆进行频谱分配,并扩展子节点、更新节点状态值,形成蒙特卡洛搜索树算法框架;S3:使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程,以得到所述认知车联网的最优频谱分配方案,其中,树策略包括选择和面向约束的扩展,具体包括以下步骤:执行选择过程时,从根节点开始,当必须选择当前节点将下降到哪个子节点时,使用蒙特卡洛搜索树的置信上限UCT递归选择子节点,最终,将置信上限UCT最大的子节点视作当前节点进行下一步的扩展;当选择过程达到终止时,执行面向约束的扩展操作:判断当前节点的访问次数是否为0,若访问次数则直接进入模拟阶段;若访问次数枚举所有可用的动作,枚举时根据下式定义的约束条件修剪动作空间,以便从当前节点获得所有可用动作: 式中:K表示主用户k的总数;认知车辆n为二级用户,N为二级用户总数;M表示信道m的总数;信道可用矩阵L={ln,m|ln,m∈{0,1}}N×M,当信道m对二级用户n可用时,ln,m=1;反之,当信道m对二级用户n不可用时,ln,m=0;二级用户干扰矩阵C={cn,n',m|cn,n',m∈{0,1}}N×N×M,cn,n',m=1表示当二级用户n和n'共用信道m进行信息传输时存在相互干扰,cn,n',m=0则表示二级用户n和n'可以在满足无干扰约束条件下同时使用信道m;信道分配矩阵A={an,m|an,m∈{0,1}}N×M,an,m=1表示将信道m分配给二级用户n,an,m=0则视为不将信道m分配给二级用户n;信道奖励矩阵R={rn,m|rn,m≥0}N×M,rn,m表示二级用户n使用信道m时所获得的网络奖励;Pm,k,n表示主用户k在信道m上接收到的二级用户n的干扰功率;δm,k表示主用户k在信道m上的最大可接受干扰功率;UA,R表示网络系统总链路容量,Am、Rm分别表示信道分配矩阵A、信道奖励矩阵R的第m列向量,运算符号表示哈达玛积,SUM是返回矩阵所有条目总和的运算符;表示二级用户n在信道m上的传输功率,和分别表示二级用户n在信道m的最小、最大允许传输功率;φm表示信道m的可用带宽阈值,表示Rm的转置向量;然后,添加新节点以展开蒙特卡洛搜索树,并将当前节点设置为一个扩展后随机选择的新子节点;若当前节点的访问次数为0,则执行从当前节点到终端叶子节点的模拟,当前节点为新扩展的节点终端叶子节点用表示,则模拟时将主用户的网络服务持续时间τ纳入模拟过程中多阶段扩展的奖励评价中,设主用户k的服务持续时间τk对应一个不确定性场景πk,且主用户的网络服务持续时间服从对数正态分布;在每层模拟时进行χ次采样,以控制计算规模,得到一个场景集合,表示为则基于差异化场景的模拟包括以下步骤:当分配信道m给认知车辆n时,搜索树执行从节点到下一节点的模拟,此时节点的随机收益为: 式中:E表示认知车辆n在χ个场景下获得的随机收益的期望;τi是来自分布的采样之一,1≤i≤χ,τi-1就刻画了主用户服务持续时间和车辆用户收益之间的关系;utilityn>0是一个表示认知车辆n的网络效用分数的权重系数,使用双曲正切函数tanh·将认知车辆n的utilityn值归一化到区间[0,1]内;CountLm记录了信道可用矩阵L的第m列中元素为1的个数,CountAm记录了信道分配矩阵A的第m列中元素为1的个数,CountLm-CountAm描述了在不考虑干扰约束C和容量约束φm时信道m上最多可接入的车辆用户数,λm表示信道m的剩余带宽,度量了认知车辆n当前能获得的剩余最小平均带宽;在模拟阶段为节点调整了奖励Qv': 式中,rn,m是指将信道m分配给认知车辆n的即时奖励;当模拟到达终端叶子节点时,得到从节点到终端叶子节点的模拟路径上所有节点的累积模拟奖励也即: 当一次迭代到达终端叶子节点后,得到累积模拟奖励进行反向传播,反向传播的目的是在下一次迭代之前更新搜索树先验探索的经验信息,反向传播的奖励包含所有模拟路径上的扩展节点的奖励评价,反映了当前迭代中模拟策略的整体频谱分配性能;达到迭代终止条件后,输出当前认知车联网的最优频谱分配方案。
全文数据:
权利要求:
百度查询: 东华大学 基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。