首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的多智能体容错一致性方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江理工大学

摘要:本发明提供了一种基于强化学习的多智能体容错一致性方法及系统,本发明方法:S1:建立系统网络拓扑,设计奖励函数;S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致。本发明通过引入MARL的试错思想,即不断地尝试,并采用一种可应用于解决多智能体容错一致性问题的算法D‑OPDPG,结合MARC系统的自然特性来解决现有技术的一些问题,根据设计的奖励函数,逐步调整相邻智能体权重,从而减轻故障智能体的影响,进而逐渐识别出故障智能体。本发明在不给系统增加额外的能耗下,对噪声有着极高的容忍度。此外,采用基于强化学习的分布式方法,放宽了网络拓扑的限制条件,其仅需网络拓扑满足连通图要求。

主权项:1.一种基于强化学习的多智能体容错一致性方法,其特征在于:包括如下步骤:S1:建立系统网络拓扑,设计奖励函数;S2:智能体之间交互:根据设计的奖励函数,逐步调整相邻智能体权重,直至正常智能体状态达成一致;步骤S1具体如下:由n个智能体组成的网络,标记为1,2,…n;网络关系使用有向图G=V×E表示,其中V={1,2,…n}表示智能体集合,用于描述智能体的连接关系;如果智能体i能从智能体j接收到信息,则智能体i有一条从智能体j到智能体i的边,即智能体j是智能体i的邻居节点,智能体i的邻居集合由Ni={j|j,i}∈E表示;整个网络由三种智能体组成,包括正常智能体集合Vn,随机状态值故障智能体集合Vp,常值状态值故障智能体集合Vc,V=Vn∪Vp∪Vc;针对智能体i来说,定义其对邻居智能体j在k时刻的权重为αij,k,在k时刻的状态为xi,k,在k时刻的奖励值为ri,k;其次,智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态,简称为输入状态,并用si,k表示,其中再次,在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为,简称为行为,并用ai,k表示,其中此外,s表示样本轨迹数量,τ表示一个轨迹,γ表示折扣因子,用Rτ表示强化学习奖励,即智能体在一个轨迹内的总奖励值,简称总奖励值,其中: 步骤S2具体如下:S21,根据权重参数θi随机初始化策略网络S22,随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重,将总奖励值Rτ初始化为0;S23,对每一个正常智能体i而言,接收邻居智能体j的状态值,生成输入状态si,k: S24,将输入状态si,k传入到策略网络中得到行为ai,k: S25,通过更新的输入状态si,k和行为ai,k计算智能体i的奖励值ri,k:ri,k∶=fsi,k,ai,kS26,根据奖励值ri,k和上个轨迹总奖励值Rτ更新当前轨迹的总奖励值:Rτ←Rτ+γkfsi,k,ai,kS27,在有随机噪声影响的情况下,智能体i利用对邻居智能体j的权重值、邻居智能体j的状态值以及自身的状态值更新状态xi,k+1: S28,重复步骤S23至S27,T次之后结束;S29,对Rτ进行随机梯度下降,并更新策略网络参数: S30,重复步骤S21至S29,S个回合之后结束;S31,重复步骤S21至S30,直至正常智能体状态达成一致。

全文数据:

权利要求:

百度查询: 浙江理工大学 一种基于强化学习的多智能体容错一致性方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。