首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于联邦学习的设备选择与资源分配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明涉及一种基于联邦学习的高效设备选择与资源分配方法,属于移动通信领域,包括以下步骤:S1:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络参数,并按照学习步骤进行更新,实例化经验回放池;S2:部署体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:在参数更新阶段,协调边缘智能体,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。

主权项:1.一种基于联邦学习的设备选择与资源分配方法,其特征在于:在移动边缘计算网络场景中,为降低工业物联网场景下联邦学习的通信开销,利用边缘服务器和云服务器对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配,在每个边缘服务器中均部署有边缘控制器,所述边缘控制器上运行有相应的边缘智能体;在边缘服务器上计算损失值Feωm并传输到云服务器,由云服务器计算平均损耗Fcwm并下发到每个边缘服务器,作为边缘智能体的奖励;获得全局最佳联合决策的具体步骤如下:S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池被实例化;S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的经验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策;对于边缘智能体m,具体更新步骤如下:步骤1通过最小化损失函数Lφm,v来独立更新评价批评家网络的参数v表示优化因子: 其中, 表示为目标Q值,其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log·是返回动作熵值的函数;Υ是返回状态函数最小值函数;和分别是由评价网络和目标评价网络计算的状态-动作Q值;在评价批评家网络和目标批评家网络中分别设置两个参数以缓解政策改进中的正偏置,损耗计算只使用这两个Q值的最小值,从而得到用于更新批评家网络参数的随机梯度: 其中,▽表示梯度计算;αm为最大熵目标权值;表示智能体m实时策略;步骤2通过策略梯度方法对行动者网络进行更新,目标函数定义为: 其中,策略函数通过FCNN网络重新参数化表示为其中E表示期望函数,其中加入一个高斯噪声εt,从而获得一个较低的方差估计,公式4重新表示为: 其中εt服从高斯分布,由此计算出策略的梯度: 步骤3采用FCNN来自动设定最大熵目标的权值αm,αm的梯度通过以下目标来计算: 其中为所有智能体的决策集合,H′为目标熵的值;采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v:φ′m,v=τφm,v+1-τφ′m,v8其中τ∈0,1为更新因子。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于联邦学习的设备选择与资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。