离散化多智能体的深度强化学习方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学院自动化研究所

摘要：本发明提供一种离散化多智能体的深度强化学习方法及系统。所述方法包括：获取多智能体系统中的所有智能体的动作及所有智能体的观测；迭代执行至少一次第一训练过程，直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛。本发明使用一种离散化处理的网络结构来表征多智能体系统的观测以及其他智能体的动作，该离散化网络以所有智能体的观测和其他智能体的动作作为输入，用于离散化智能体的智能体观测集合以及其他智能体的动作，能够减轻环境中噪声对智能体决策的影响，促进智能体的协作，提升多智能体系统的协作效率。

主权项：1.一种离散化多智能体的深度强化学习方法，其特征在于，包括：获取多智能体系统中的所有智能体的动作及所有智能体的观测；迭代执行至少一次第一训练过程，直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛；其中，所述第一训练过程包括：将所述所有智能体的观测输入到置换不变性网络，得到所有智能体的观测集合；迭代执行至少一次第二训练过程，直至获取到所有智能体的目标动作；执行所述所有智能体的目标动作，更新所述观测和环境奖励，所述环境奖励用于更新所述损失函数；对所述深度强化学习网络的参数进行更新；所述第二训练过程包括：基于离散化网络，对第一智能体的观测集合及第二智能体的动作进行离散化处理，得到第一智能体的目标动作，所述第一智能体为所述所有智能体中的任一智能体，所述第二智能体为所述所有智能体中除所述第一智能体之外的其他智能体；所述基于离散化网络，对第一智能体的观测集合及第二智能体的动作进行离散化处理，得到第一智能体的目标动作，包括：基于所述离散化网络，对第一智能体的观测集合及第二智能体的动作进行离散化处理，得到第一智能体的离散化观测集合及第二智能体的离散化动作；根据所述第一智能体的离散化观测集合及所述第二智能体的离散化动作，得到第一智能体的目标动作；多智能体运行环境为策略游戏多种单位对战环境；对于第i个智能体，智能体面向环境的观测oi,t包含的信息有：环境中所有单位的归一化生命、护盾、相对坐标的信息，智能体上一时刻动作与智能体的身份标识；面向单位的观测oi→j包含的信息为攻击目标j的归一化生命、护盾、相对坐标的信息；所述多智能体运行环境根据多智能体系统选择的联合动作获取场景中各个单位的下一时刻状态，并为多智能体系统反馈环境奖励；所述环境奖励包括即时奖赏与终局奖赏；即时奖赏为敌我双方造成伤害之差，若我方单位对敌方单位造成伤害，则环境为多智能体系统反馈等于伤害数值的正奖赏；若敌方单位对我方单位造成伤害，则环境为多智能体系统反馈等于伤害数值相反数的负联合奖赏；终局奖赏反映对战胜负，若我方获胜则环境反馈正的联合奖赏，若我方落败则环境反馈负的联合奖赏；终局奖赏的具体数值设置为+10或-10；所述多智能体系统对应的智能体网络用于分布式地计算智能体的观测动作价值，每一个智能体网络控制环境中的一个我方单位，通过输入我方单位的局部观测为我方单位选择合适的动作；智能体的动作空间可按功能划分为面向环境的移动动作子空间与面向单位的攻击动作子空间；对于第i个智能体，智能体的动作空间包括两个动作子空间，分别为面向环境的四个方向的移动动作ai与面向单位针对一具体攻击目标j的攻击动作ai→j。

全文数据：

权利要求：

百度查询：中国科学院自动化研究所离散化多智能体的深度强化学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电子白板的智能回溯方法、装置、设备及存储介质

下一篇：一种瓣膜血栓比对测试装置

相关技术

一种电子白板的智能回溯方法、装置、设备及存储介质

一种瓣膜血栓比对测试装置

基于云计算的钼丝生产过程优化系统

面向动态波动车间通信网络的车辆编队控制方法及系统

基于深度卷积神经网络的轨迹分类方法及其系统

一种基于RSSI的客轮室内环境定位方法、装置和介质

一种基于人工智能的工程项目管控语音识别方法及系统

一种轮胎磨损监测方法、系统、设备及存储介质

一种大棚蔬菜幼苗生长周期便捷移植装置及其移植方法

污水深度脱氮除磷装置及方法

一种基于改进残差网络和多专家模型的血糖监测方法

一种结构完整的木质素-碳水化合物复合体的分离方法

深度相关技术

一种钻孔深度检测结构_河南省耿力工程设备有限公司_202323536627.2

碳酸镍深度除铜设备_岐山晨光化工有限责任公司_202420427793.4

一种基于深度学习的睡眠分期方法_北京思利普科技有限公司_202410875978.6

一种偏振接收模组及深度相机_深圳市光鉴科技有限公司_202323282425.X

具有深度过滤功能的富氢水路_佛山市芯耀环保科技有限公司_202420270900.7

一种工业综合废水的深度处理方法_杭州绿夏环境科技有限公司_202410766574.3

一种可改变犁地深度的犁地机_长春职业技术学院_202420852679.6

基于深度学习的海洋肽活性预测方法_山东理工大学_202411236917.1

一种压片机装料深度控制机构_常州市龙城晨光药化机械有限公司_202323596179.5

一种可调节深度的扒皮机_淄博奥通新材料科技有限公司_202420120671.0

体相关技术

柜体_博洛尼智能科技(青岛)有限公司_202420086687.4

包装体_三井化学东赛璐株式会社_202080064876.6

层叠体的制造方法和层叠体_株式会社力森诺科_202410739480.7

聚烯烃系树脂发泡体及成型体_积水化学工业株式会社_202380023891.X

泳池池体_上海杰深建材有限公司_202322779598.6

金属有机结构体_东洋制罐集团控股株式会社_202380023693.3

心脏瓣膜假体_恪心有限责任公司_201880095776.2

粉体涂敷装置_松下知识产权经营株式会社_202280092920.3

车辆用管道构造体_京洛株式会社_202180005983.6

SiC膜单体结构体_艾德麦普株式会社_201980002150.7

强化相关技术

一种微晶玻璃化学强化方法及化学强化微晶玻璃制品_湖北戈碧迦光电科技股份有限公司_202410895182.7

一种全自动镜架清洗强化机_温州市鸿新科技有限公司_202323658697.5

一种化学强化玻璃压平装置_上海赢赛实业有限公司_202420254299.2

一种强化玻璃及其制备方法和用途_重庆鑫景特种玻璃有限公司_202410740153.3

一种川藏黑猪营养强化剂及其制备方法和应用_成都铁骑力士饲料有限公司_202411253737.4

大语言模型和强化学习模型的协同方法和装置_清华大学_202410798640.5

基于喷涂强化的干法电极极片、其加工方法及设备_广汽埃安新能源汽车股份有限公司_202411205713.1

基于激光强化的干法电极极片、其加工方法及设备_广汽埃安新能源汽车股份有限公司_202411221744.6

一种复合型强化防潮纤维板及制备装置及方法_福人木业(莆田)有限公司_202310502416.2

一种基于主动气泡调控射流冷却装置及换热强化方法_北京石油化工学院_202210829331.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

离散化多智能体的深度强化学习方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务