面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备

导航：龙图腾网> 最新专利技术> 面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江苏大学

摘要：本发明公开了一面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备。系统框架采用基于机理模型的数据分析方法建立样本置信度综合量化指标，实现精准、全面、可解释的偏好建模，并依据偏好模型从目标对齐和协同优化角度，解构联邦强化学习算法，实现算法多层级解释；创新采用数据机理双驱动的混合视觉注意力模型，解决传统深度强化学习在城市复杂交通环境下的高维状态空间表征难题，实现高可用性算法表现；该系统将多智能体联邦强化学习协同优化过程建模为可解释的自组织性群体合作过程，通过偏好启发式参数聚合实现模型鲁棒性与样本效率之间的平衡，解决了城市自动驾驶算法可信任难题。

主权项：1.面向多智能体可信交互式决策控制的联邦强化学习系统，其特征在于，包括：网络预训练部分、强化学习训练部分、多智能体合作部分；所述网络预训练部分，首先建立奖励函数模型，然后基于自动化专家采集产生演示数据集，最后在数据集中进行奖励函数特征提取器的预训练；所述强化学习训练部分，首先建立强化学习模型，然后在模拟器中交互控制，在交互中产生经验样本；所述多智能体合作部分，首先根据智能体与环境交互产生的样本更新网络参数，再由奖励函数模型对智能体交互产生的轨迹片段进行在线打分排序，最后基于排序对强化学习模型参数进行参数聚合。

全文数据：

权利要求：

百度查询：江苏大学面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷却系统及冷却液加注控制方法

下一篇：时序预测方法和装置

相关技术

一种冷却系统及冷却液加注控制方法

时序预测方法和装置

一种输电线路耐张引流板导电接触面修复器及使用方法

一种发光结构及发光器件

一种陶瓷材料氙灯老化箱

基于食材特性的烹饪控制方法及装置

一种时变多普勒信道下水声直扩通信多普勒估计补偿方法

基于牙齿图像的龋齿识别分析预警方法及系统

一种具有防尘功能的遮光片生产用冲压设备

一种风电振动传感器连接装置

一种尖峰电压抑制电路及其控制方法

氨气处理系统及氨气处理方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务