买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京科技大学
摘要:本发明提供了一种无线资源分配优化方法及装置,涉及无线通信技术领域。包括:对无线设备进行优先级划分,得到不同优先级的无线设备;对所述不同优先级的无线设备设置不同的接入限制因子;通过基站建立智能体模型,对各类接入限制因子进行决策;通过近端策略优化PPO算法对智能体模型进行训练,获得即时奖励以及智能体模型的不同状态;将所述即时奖励以及智能体模型的不同状态作为转移经验;计算目标函数,通过转移经验对所述目标函数进行深度学习,完成无线资源的分配优化。本发明通过引入裁剪替代目标函数,解决PG算法中步长难以确定的问题。通过迭代循环将证明基于PPO的随机资源分配优化方法及装置的独特性,实现随机接入资源分配的整体经济效益。
主权项:1.一种无线资源分配优化方法,其特征在于,包括:S1:对无线设备进行优先级划分,得到不同优先级的无线设备;对所述不同优先级的无线设备设置不同的接入限制因子;S2:通过基站建立智能体模型,对各类接入限制因子进行决策;所述S2中,通过基站建立智能体模型,对各类接入限制因子进行决策,包括:S21:设定所述接入限制因子为当第k类无线设备尝试接入时,产生一个随机数q,当时所述无线设备进入随机接入过程,即通过了接入限制ACB检查;当时,则须等到一个随机时间Tbarring,后重新进行ACB检查;其中,Tbarring=0.7+0.6uTACB;S22:完成ACB检查的无线设备从用于接入竞争的前导码中随机选择一个前导码发送给基站,进行随机接入;当多个无线设备的前导码选择发生冲突时,启动退避机制,则返回步骤S21,对发生冲突的所有无线设备重新进行ACB检查,直至前导码仅被一个无线设备选择时,该无线设备成功接入基站;S3:通过近端策略优化PPO算法对智能体模型进行训练,获得即时奖励以及智能体模型的不同状态;将所述即时奖励以及智能体模型的不同状态作为转移经验;S3中,通过近端策略优化PPO算法对智能体模型进行训练,获得即时奖励以及智能体模型的不同状态;所述即时奖励以及智能体模型的不同状态为转移经验,包括:S31:初始化无线设备、PPO算法中神经网络内的各项参数以及智能体的环境信息;S32:将当前时隙的无线设备接入结果,作为智能体的当前状态st输入到神经网络中,输出概率最大的动作,将其作为当前状态st下的最优动作at;S33:所述智能体模型执行最优动作at与智能体环境进行交互,获得即时奖励rt以及下一状态st+1;所述当前状态st、最优动作at、即时奖励rt以及下一状态st+1构成转移经验,将转移经验st,at,rt,st+1存储至缓冲区;S34:重复执行步骤S32-33,直至完成所有状态下的最优动作选取,将构成的转移经验全部存储至缓冲区内;S4:计算目标函数,通过转移经验对所述目标函数进行深度学习,完成无线资源的分配优化;S4中,计算目标函数,通过转移经验对所述目标函数进行深度学习,包括:S41:根据下述公式3计算每一个状态下的优势函数Aπθst,at; 其中Vπθst为基准值,γ为折扣因子,T为一个回合的总步数;S42:通过智能体从缓冲区中随机选择转移经验用于深度学习,根据下述公式4计算目标函数更新网络参数θ: 其中,c1和c2是系数,目标函数由裁剪目标函数价值函数误差项和熵奖励三部分组成;所述裁剪目标函数表示为: 其中,为长期奖励函数,表示新策略πθat|st和旧策略的比例;当时,则鼓励当前状态st下的最优动作at,σtθ会呈现增长的趋势;反之,则惩罚当前状态st下的最优动作at,σtθ会呈现减小的趋势;S43:判断是否达到预设的学习次数,若已达到预设的学习次数,则使用深度学习得到的网络参数θ替代原始网络参数θold;若未达到预设的学习次数则返回步骤S41;S44:通过梯度上升法对网络参数θ进行多次训练迭代更新,所述长期奖励函数维持在预设的范围内不再上升,即表示各个类别的成功接入数量达到最大,且在满足各类别的接入成功率的基础上时延达到最低,则终止该资源分配的优化过程,完成无线资源的分配优化。
全文数据:
权利要求:
百度查询: 北京科技大学 一种无线资源分配优化方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。