Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆邮电大学尚凤军获国家专利权

重庆邮电大学尚凤军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆邮电大学申请的专利一种基于边缘计算和元深度强化学习的多任务路由优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114980172B

龙图腾网通过国家知识产权局官网在2025-12-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210568991.8,技术领域涉及:H04W24/02;该发明授权一种基于边缘计算和元深度强化学习的多任务路由优化方法是由尚凤军;王颖;雷建军设计研发完成,并于2022-05-24向国家知识产权局提交的专利申请。

一种基于边缘计算和元深度强化学习的多任务路由优化方法在说明书摘要公布了:本发明属于无线网络通信技术领域,具体涉及一种基于边缘计算和元深度强化学习的多任务路由优化方法,该方法包括:终端设备入网将路由任务发送给控制器;控制器根据路由任务构建子模型,并采用优化的元模型对子模型参数进行更新;终端设备根据子模型参数对本地模型参数进行更新,并获取终端的设备的局部状态信息,采用本地模型对局部状态信息进行处理,得到对应的动作;终端设备根据得到的动作与环境进行交互,得到经验信息;控制器计算经验信息的引导奖励值,并对经验信息进行更新;根据更新后的经验信息执行路由;本发明在对元模型参数进行更新过程中,采用GRU优化器来更新元模型参数,避免梯度下降方法中人为配置学习率导致的不适配问题。

本发明授权一种基于边缘计算和元深度强化学习的多任务路由优化方法在权利要求书中公布了:1.一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,包括: S1:构建基于边缘计算和元深度强化学习网络框架,该网络框架包括集中式控制器和终端设备;集中式控制器中的边缘计算层负责集中式学习者和终端设备层执行智能算法和与环境交互;定义多任务ID信息ID=[1,N]和各任务的和其中,和的i∈[1,N]为任务编号;其对应的最大奖励值和平均奖励值分别为:最短路径优先:编号1,最小化数据传输时延:编号2,最大化吞吐量:编号3,最小化网络生存时间:编号4,最大化数据传输可靠性:编号5, S2:集中式控制器根据路由任务构建子模型,并采用优化的元模型对子模型中的参数进行更新;将更新后的子模型参数发送给终端设备; 采用优化的元模型对子模型中的参数进行更新的过程包括: 步骤1:集中式控制器从经验池中抽取mini-batch样本ej=sj,aj,rj,s′j,j=1,2,...,k;其中,sj表示当前时刻终端设备执行任务j的局部状态信息,aj表示当前时刻执行任务j时局部状态信息对应的动作,rj表示执行任务j对应的奖励值,s′j表示下一时刻终端设备执行任务j局部状态信息,mini-batch表示小批量; 步骤2:根据获取的样本计算TargetQ值;其中,TargetQ值表示深度强化学习模型中策略Main网络的状态-动作值函数值;计算TargetQ值公式为: 其中,γ表示折扣因子,Q表示状态-动作值函数,s′j表示下一个状态值,πθ′s′j表示状态s′j的策略函数,ω′表示网络参数,is_endj表示s′j为最终状态; 步骤3:根据TargetQ值计算均方误差,并采用基于深度网络的梯度反向传播更新Criticmain网络参数ω;Criticmain表示深度强化学习模型中评估Main网络; 步骤4:计算Jθ,并采用神经网络的梯度反向传播来更新Actormain策略网络的参数; 其中,Jθ表示Actormain网络的损失函数,θ表示Actormain策略网络参数,Actormain表示深度强化学习模型中策略Main网络; 步骤6:每运行C轮,更新ActorTarget策略网络和CriticTargetQ网络参数;更新公式为: θ′←αθ+1-αθ′ ω′←αω+1-αω′ 其中,α表示学习率,θ′表示ActorTarget网络参数,ω′表示CriticTarget网络参数; 步骤7:重复步骤3~步骤6,直到子模型收敛时,输出更新后的子模型参数; S3:终端设备入网将路由任务发送给集中式控制器; S4:终端设备根据子模型参数对本地模型参数进行更新,并获取终端设备的局部状态信息,将局部状态信息输入到参数更新后的本地模型中,得到局部状态信息对应的动作; S5:终端设备根据得到的动作与环境进行交互,得到经验信息;将经验信息和路由任务ID发送给集中式控制器; S6:集中式控制器计算经验信息的引导奖励值,并采用引导奖励值对经验信息进行更新;根据更新后的经验信息执行路由; S7:将更新后的经验信息存储到的经验池中; S8:根据更新后的经验池和子模型对元模型进行优化更新;具体包括: S81:初始化元模型的参数和GRU优化器的参数 S82:从更新后的经验池中随机采样,得到一个batch,并将该数据作为训练数据; S83:根据当前时刻的子模型的优化参数计算元模型的损失函数值,并根据损失函数值计算此时元模型参数θt的梯度 S84:将梯度和GRU优化器前一时刻的隐藏层信息作为当前时刻GRU优化器的输入,得到θt的更新梯度gt; S85:采用更新梯度gt对元模型参数θ进行更新; S86:采用损失函数更新GRU优化器的参数

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。