中山大学·深圳;中山大学龚世民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学·深圳;中山大学申请的专利一种面向物联网数据卸载的多智能体强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114222368B 。
龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111442259.8,技术领域涉及:H04W72/53;该发明授权一种面向物联网数据卸载的多智能体强化学习方法是由龚世民;谭源正;刘玥;周航设计研发完成,并于2021-11-30向国家知识产权局提交的专利申请。
本一种面向物联网数据卸载的多智能体强化学习方法在说明书摘要公布了:本发明公开了一种面向物联网数据卸载的多智能体强化学习方法,该方法包括:在物联网的多终端场景下,联合优化主动、被动波束成形和用户的资源分配决策,制定功率最小化问题;构建马尔可夫决策过程,基于多智能体强化学习求解功率最小化问题。通过使用本发明,将优化问题分层解决,以改善的多智能体深度强化学习,显著提高学习率和性能。本发明作为一种面向物联网数据卸载的多智能体强化学习方法,可广泛应用于无线通信领域。
本发明授权一种面向物联网数据卸载的多智能体强化学习方法在权利要求书中公布了:1.一种面向物联网数据卸载的多智能体强化学习方法,其特征在于,包括以下步骤: 在物联网的多终端场景下,联合优化主动、被动波束成形和用户的资源分配决策,制定功率最小化问题; 构建马尔可夫决策过程,基于多智能体强化学习求解功率最小化问题; 所述构建马尔可夫决策过程,基于多智能体强化学习求解功率最小化问题这一步骤,其具体包括: 将无线发射基站设置为控制者,在控制者与每个用户处都设置独立智能体,得到控制者智能体和用户智能体; 将动作at=θi,ωi,ρi,τi,ki分为全局动作ac,t=θi与局部动作ao,t=ωi,ρi,τi,ki; 所述控制者智能体基于深度强化学习方法优化全局动作ac,t=θi,i∈{1,…,N},基于优化方法估计部分局部动作ωi,ρi,i∈{1,…,N};其中,θi表示相位,ωi表示主动波束成形策略,ρi表示反射系数,τi表示时隙划分比例,ki表示数据卸载比例,将整个时间段分为N份; 所述用户智能体基于深度强化学习方法优化本用户智能体的动作au,i=τi,ki; 迭代开始,控制者智能体的执行者actor网络输出全局动作ac,t=θi,i∈{1,…,N},基于优化方法得到ωi,ρi,i∈{1,…,N}、所有用户智能体动作的估计值au,i,i={1,…,N}和目标值下界的估算值y′,并将目标值下界的估算值y′和其他智能体的动作估计au,-i分发给每一个用户智能体i; 用户智能体i从控制者处获得其他n-1个用户的动作估计au,-i, 用户智能体i的执行者actor网络输出本用户智能体动作au,i=τi,ki; 用户智能体i的目标评价者target-critic网络生成用户智能体的目标值yi; 用户智能体i从控制者处获得目标值下界的估算值y′; 用户智能体i比较用户的目标值yi和目标值下界的估算值y′,以数值较大的值作为用户智能体i的评价者critic网络训练的目标值; 用户智能体i以控制者的动作估计au,-i作为用户智能体i对其他智能体动作信息的近似替代; 所有用户智能体训练结束,将全局动作与局部动作组合,得到完整动作at=ac,t,ao,t,并根据该完整动作与环境交互,得到奖励值rt; 控制者智能体的目标评价者target-critic网络输出控制者的目标值y; 将完整动作at、奖励值rt与目标值下界的估算值y'反馈给控制者智能体,比较控制者的目标值y和目标值下界的估算值y',选取其中较大的目标值作为控制者智能体的评价者critic网络的训练目标值;控制者智能体根据评价者critic网络输出的策略梯度训练执行者actor网络,根据评价者critic网络的输出与目标值的时间差分TD误差训练其评价者critic网络; 当网络输出值收敛时则停止迭代,否则进入下一轮迭代。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学·深圳;中山大学,其通讯地址为:518107 广东省深圳市光明新区光明街道华夏路和润家园3栋501;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。