首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的6G支持mIoT资源分配方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆理工大学

摘要:本发明涉及大规模物联网mIoT技术领域,具体公开了一种基于强化学习的6G支持mIoT资源分配方法及系统,其首先考虑大规模密集部署需求和相关的重叠干扰,构建了一种新的mIoT超图干扰模型,该模型通过将复杂干扰协调转换为超图强着色问题,可以计算mIoT的干扰度。由于该模型难以求解,本发明提出了一种新的间接解决方案,将干扰协调问题建模为一个马尔可夫决策过程MDP。为了避免对MDP的价值过高估计,本发明提出了一种新的基于价值和基于策略的资源管理算法异步多线程架构。仿真结果表明,与现有的解决方案相比,本发明提出的方案可以在mIoT场景中获得更好的性能。

主权项:1.基于强化学习的6G支持mIoT资源分配方法,其特征在于,包括步骤:S1、构建支持6G功能的mIoT通信网络架构,mIoT指海量物联网;所述mIoT通信网络架构包括NES个ES、NID个ID和一个云处理器,ES指边缘服务器,ID指IOT设备即物联网设备;ES作为6G基站,具有计算和存储功能,以满足其通信范围内的多个ID的需求;部分ID之间直接进行D2D通信;云处理器负责基带信号处理和通信资源管理;由ID生成的数据存储在云处理器的虚拟资源管理池中,然后通过前端链路将数据分配到ES的一个子集;S2、建立所述mIoT通信网络架构在资源分配时的超图网络模型;在所述步骤S2中,所述超图网络模型用初始超图关联矩阵HT表征,HT的行表示顶点,顶点包括NES个ES和NID个ID;HT的列表示建立的超边,建立超边的方法如下:建立以ES或ID为中心的超边,超边内的ID在通信范围内,会造成相互干扰;HT的第i行第j列的元素xi,dj取值如下: xi,dj=1表示顶点xi在超边dj的范围内,xi,di=0表示顶点xi不在超边dj的范围内;S3、针对所述超图网络模型中的干扰关系建立超图干扰模型;在所述步骤S3中,超图干扰矩阵T采用如下步骤获得:S31、通过删除子超边对所述初始超图关联矩阵进行简化,得到简化超图关联矩阵Hs;S32、去除简化超图关联矩阵Hs中非重叠的信息,得到重叠超图关联矩阵Ho;S33、重叠超图关联矩阵Ho中的通信链路关系用超图干扰矩阵T表示,其中重叠超图关联矩阵Ho中为1的元素全用资源表示;S4、基于所述超图干扰模型建立所述mIoT通信网络架构的无冲突资源分配问题;在所述步骤S4中,所述无冲突资源分配问题构建为: 其中,C[m]表示IDm的传输速率,M表示NID个ID的集合,Φ表示mIoT通信网络架构的整体干扰度,Cmin[m]表示最小传输速率;约束C1表示对资源分配没有干扰;约束C2表示每个ID的传输速率都大于最小传输速率Cmin[m];Φ由下式计算: 其中,表示超图干扰矩阵T中所分配的资源κ的总体干扰程度,超图干扰矩阵T是表征所述超图干扰模型中通信链路关系的一个矩阵,K表示可使用的所有通信资源的集合; 由下式计算: 其中,表示在向量中分配的资源κ的重复次数,表示在向量中分配的资源k的重复次数,向量表示超图干扰矩阵T的第n行的行向量,表示超图干扰矩阵T的第m列的列向量,N表示NES个ES的集合;S5、基于所述无冲突资源分配问题构建为以马尔科夫决策过程为指导的资源分配网络;在所述步骤S5中,以马尔科夫决策过程为指导,具体是指:定义在时隙t的状态st为: 其中,表示时隙t时所有ID容量γ的集合,Φt表示时隙t时的Φ,表示时隙t时的Cmin[m],Tt表示时隙t时的T;st∈S,S表示状态空间;定义在时隙t时的资源分配动作at为: 其中,κi,j表示at中第i行第j列的元素,κi,j表示第i个ES和第j个ID之间所分配的资源,i=1,2,…,NES,j=1,2,…,NID;定义执行动作at获得的即时奖励rt为: 其中,Ot=1-nktlinkt×100%是在时隙t中使用的资源的数量,nlinkt表示时隙t中的mIoT通信链路数,nkt表示在时隙t中使用的资源κ的数量;通过计算训练过程中获得的累积奖励U来学习和评估动作空间和状态空间,累积奖励U为: 其中,TL为mIoT的总工作时间;在所述步骤S5中,所述资源分配网络包括超图干扰估计网络和资源配置策略网络;超图干扰估计网络提供状态值函数Vπs和动作值函数Qπs,a来评估由资源配置策略网络生成的资源分配方案;所述资源分配策略网络是一个策略网络,它以状态作为输入,输出近似于策略模型,目的是通过基于超图干扰估计网络提供的值函数更新其参数来最大化预期的累积奖励;在所述资源分配网络中,定义超图干扰估计函数中的状态值函数Vπs和动作值函数Qπs,a为: 其中,表示期望,s表示时隙t处的当前系统状态,a表示时隙t处的当前系统动作,λ表示折扣因子,s′表示时隙t处的下一个系统状态;S6、采用异步多线程架构训练所述资源分配网络;所述步骤S6具体包括步骤:S61、创建多个并行的特定于线程的网络,每个特定于线程的网络都有一个具有所述资源分配网络的结构副本的代理;所有代理都共享一个全局的资源分配网络参数,并根据环境状态选择一个动作,从而获得一个奖励和下一个状态;S62、初始化共享的超图干扰估计网络参数w和共享的资源配置策略网络参数θ,初始化特定于线程的超图干扰估计网络参数w′和资源配置策略网络参数θ′;S63、同步特定于线程的网络θ′=θ和w′=w;S64、在每个线程中,执行动作,获取奖励,计算累积梯度;S65、通过每个线程中计算的累积梯度异步更新共享的网络参数,然后将更新后的共享参数传递给每个特定于线程的网络,然后返回至步骤S64进入下一次循环,直至收敛结束循环;S7、训练完成的所述资源分配网络根据当前mIoT通信网络架构的状态进行无干扰资源分配。

全文数据:

权利要求:

百度查询: 重庆理工大学 基于强化学习的6G支持mIoT资源分配方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。