一种基于强化学习的多智能体容错一致性方法及系统

导航：龙图腾网> 最新专利技术> 一种基于强化学习的多智能体容错一致性方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江理工大学

摘要：本发明提供了一种基于强化学习的多智能体容错一致性方法及系统，本发明方法：S1：建立系统网络拓扑，设计奖励函数；S2：智能体之间交互：根据设计的奖励函数，逐步调整相邻智能体权重，直至正常智能体状态达成一致。本发明通过引入MARL的试错思想，即不断地尝试，并采用一种可应用于解决多智能体容错一致性问题的算法D‑OPDPG，结合MARC系统的自然特性来解决现有技术的一些问题，根据设计的奖励函数，逐步调整相邻智能体权重，从而减轻故障智能体的影响，进而逐渐识别出故障智能体。本发明在不给系统增加额外的能耗下，对噪声有着极高的容忍度。此外，采用基于强化学习的分布式方法，放宽了网络拓扑的限制条件，其仅需网络拓扑满足连通图要求。

主权项：1.一种基于强化学习的多智能体容错一致性方法，其特征在于：包括如下步骤：S1：建立系统网络拓扑，设计奖励函数；S2：智能体之间交互：根据设计的奖励函数，逐步调整相邻智能体权重，直至正常智能体状态达成一致；步骤S1具体如下：由n个智能体组成的网络，标记为1,2,…n；网络关系使用有向图G＝V×E表示，其中V＝{1,2,…n}表示智能体集合，用于描述智能体的连接关系；如果智能体i能从智能体j接收到信息，则智能体i有一条从智能体j到智能体i的边，即智能体j是智能体i的邻居节点，智能体i的邻居集合由Ni＝{j|j,i}∈E表示；整个网络由三种智能体组成，包括正常智能体集合Vn，随机状态值故障智能体集合Vp，常值状态值故障智能体集合Vc，V＝Vn∪Vp∪Vc；针对智能体i来说，定义其对邻居智能体j在k时刻的权重为αij,k，在k时刻的状态为xi,k，在k时刻的奖励值为ri,k；其次，智能体i状态与其邻居智能体j的状态集合称为智能体i的强化学习输入状态，简称为输入状态，并用si,k表示，其中再次，在k时刻的智能体i对所有邻居智能体权重集合称为强化学习行为，简称为行为，并用ai,k表示，其中此外，s表示样本轨迹数量，τ表示一个轨迹，γ表示折扣因子，用Rτ表示强化学习奖励，即智能体在一个轨迹内的总奖励值，简称总奖励值，其中：步骤S2具体如下：S21，根据权重参数θi随机初始化策略网络S22，随机初始化所有智能体在k时刻的状态以及对邻居智能体j在k时刻的权重，将总奖励值Rτ初始化为0；S23，对每一个正常智能体i而言，接收邻居智能体j的状态值，生成输入状态si,k： S24，将输入状态si,k传入到策略网络中得到行为ai,k： S25，通过更新的输入状态si,k和行为ai,k计算智能体i的奖励值ri,k：ri,k∶＝fsi,k,ai,kS26，根据奖励值ri,k和上个轨迹总奖励值Rτ更新当前轨迹的总奖励值：Rτ←Rτ+γkfsi,k,ai,kS27，在有随机噪声影响的情况下，智能体i利用对邻居智能体j的权重值、邻居智能体j的状态值以及自身的状态值更新状态xi,k+1： S28，重复步骤S23至S27，T次之后结束；S29，对Rτ进行随机梯度下降，并更新策略网络参数： S30，重复步骤S21至S29，S个回合之后结束；S31，重复步骤S21至S30，直至正常智能体状态达成一致。

全文数据：

权利要求：

百度查询：浙江理工大学一种基于强化学习的多智能体容错一致性方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种T型钢生产用垂直检验装置

下一篇：耐腐蚀铝合金门

相关技术

一种T型钢生产用垂直检验装置

耐腐蚀铝合金门

一种建筑工程施工用提升装置

一种四合一冲锋衣

一种甜菊糖苷浸泡组件

一种压力容器主管道封盖拆除的简易工装

一种设有外包透明管的机电安装吊杆结构

一种蔬菜种植用培育防虫装置

一种带温度监测功能的配电柜

一种矿用泡沫抑尘设备的喷头组件

一种螺杆空压机的自动润滑装置

一种食品加工的圆盘冷却架

体相关技术

玻璃夹纸、层叠体和包装体_AGC株式会社_202011106575.3

自主移动体的控制装置以及自主移动体_三菱电机楼宇解决方案株式会社_202080104386.4

粉粒体及其利用_株式会社钟化_202080024033.3

建筑模板支架体_中南林业科技大学_202323482075.1

超声体模机构_飞依诺科技股份有限公司_202323209219.6

文具包装体_株式会社百乐_202380017422.7

静音缓冲锁体_广东名门锁业有限公司_201710587936.2

检测体处理系统_株式会社日立高新技术_202080005550.6

门体和清洗设备_宁波方太厨具有限公司_202410858603.9

筒型纤维预制体_江苏天鸟高新技术股份有限公司_201811624148.7

容错相关技术

一种信息物理系统有限时滑模容错安全控制方法及装置_北京科技大学_202411128917.X

一种基于温度约束的六相电机容错模式自适应切换方法及系统_中国矿业大学_202311869874.6

一种基于强化学习的多智能体容错一致性方法及系统_浙江理工大学_202111184950.0

霍尔推力器的自适应容错控制方法及系统_北京易动宇航科技有限公司_202410940209.X

主动容错方法、装置、设备、介质及计算机程序产品_苏州元脑智能科技有限公司_202410636689.0

面向复用冗余单元型HANPC外管开路故障的容错控制方法_湖南大学_202410772521.2

一种六相永磁容错电机双矢量模型预测电流控制方法_大连海事大学_202210157384.2

新能源电动汽车用多相容错伺服电机_苏州容昇电气科技有限公司_202323569979.8

对称等效的容错式通信方法、装置、系统和存储介质_浙江大华技术股份有限公司_202411120913.7

一种并网混合型ANPC容错系统及其控制方法_湖南大学_202410454064.2

一致性相关技术

一种一致性验证方法和相关装置_北京开源芯片研究院_202410738223.1

基于多目标优化的中药一致性混批勾兑方法_贵州大学_202410754175.5

面向多级总线的缓存一致性优化方法、装置和设备_北京卡普拉科技有限公司_202411131862.8

一种提高LED显示屏防潮性能及墨色一致性的方法_惠州市联建光电有限公司_202410750248.3

一种牵引车制动一致性的评价方法、装置、介质及设备_所托(杭州)汽车智能设备有限公司_202410676893.5

一种机载复杂电子硬件需求和代码的一致性检测方法_西北工业大学_202410733720.2

一种动态可重构电池模组的内阻一致性评价方法及系统_云储新能源科技有限公司_202410916895.7

一种LCD背光板一致性校正方法和装置_北京凯视达科技股份有限公司_202310163710.5

一种基于强化学习的多智能体容错一致性方法及系统_浙江理工大学_202111184950.0

一种基于潜在一致性模型的无需微调高效拖拽式编辑方法_浙江大学_202410801066.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于强化学习的多智能体容错一致性方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务