恭喜南京邮电大学赵莎莎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京邮电大学申请的专利一种NOMA-MEC系统中的用户分组和资源分配方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114885420B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210282489.0,技术领域涉及:H04W72/53;该发明授权一种NOMA-MEC系统中的用户分组和资源分配方法及装置是由赵莎莎;秦立丹;张登银;孙晨辉;文清;陈瑞杰;刘雨凡设计研发完成,并于2022-03-22向国家知识产权局提交的专利申请。
本一种NOMA-MEC系统中的用户分组和资源分配方法及装置在说明书摘要公布了:本发明公开了一种基于混合深度强化学习的NOMA‑MEC系统中的用户分组和资源分配方法及装置。本发明提出的混合深度强化学习算法利用DDPG优化连续动作和DQN优化离散动作解决了深度强化学习难以处理同时具有离散和连续动作空间的混合问题。具体地,算法根据用户的信道状态确定用户设备的带宽分配、卸载决策、子信道分配用户分组情况,以使系统的计算速率与所耗功率之比最大化。该算法可以良好地适应环境的动态特性,有效提升系统的能量效率和频谱资源利用率。
本发明授权一种NOMA-MEC系统中的用户分组和资源分配方法及装置在权利要求书中公布了:1.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,其特征在于,包括以下步骤:步骤1、描述NOMA-MEC系统,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};步骤2、定义该系统的能量效率;步骤3、描述优化问题;步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间;步骤5、构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作;步骤7、训练混合深度强化学习网络;步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例;描述NOMA-MEC系统的方法包括:所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路;所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};将系统总带宽B被分为N个正交的子信道,子信道n的带宽占总带宽的比例为τn,定义和分别表示用户集合、正交子信道集合,K≤2N;将整个过程划分为一个个时隙,Γ={1,2,...,T};信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,表示信道n上用户k到基站的信道增益,并且设hn1<hn2<....<hnK,n∈[1,N];限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号;mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k发送信号;定义该系统的能量效率的方法包括:步骤2.1该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式: 其中,Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同;Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行;步骤2.2因为信道n上用户i的信道增益hni大于用户j的信道增益hnj;根据串行干扰消除技术,基站按照用户的信道增益降序解码,则用户i的卸载速率用户j的卸载速率其中N0为噪声的功率谱密度;步骤2.3用户i和用户j的本地执行的计算速率分别为其中fi和fj为用户的CPU处理能力,为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi3、pj,local=νfj3,其中ν为用户设备芯片架构的电容有效系数;优化问题描述为: 定义深度强化学习的状态空间、动作空间的方法包括:步骤4.1所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK};步骤4.2所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ1,τ2,...,τN}为连续动作表示系统带宽分配比例,a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案;构建混合深度强化学习网络的方法包括:混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络;连续层深度强化学习网络为DDPG,离散层深度强化学习网络为DQN;将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:步骤6.1将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c带宽分配比例,由DQN网络生成a_d用户分组情况;步骤6.2在户分组情况mnk、带宽分配比例τn确定后,将最大化系统能量效率分解为最大化每个信道的能量效率Yn;问题转化为 其中矩阵X在每个时间步初始化为零矩阵;xn,i,xn,j有4种取值可能,分别为0,0、1,0、0,1、1,1,其中,x的取值就是确定卸载决策,0表示不将用户设备的计算任务卸载到边缘服务器执行,1表示卸载到边缘服务器执行,将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值;训练混合深度强化学习网络方法包括:基站在状态s下,执行动作a={a_c,a_d}后得到环境反馈的即时奖励并且获取下一时隙的状态s';将s,a_c,r,s'存储到DDPG经验池,样本s,a_d,r,s'存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值;DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。