Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院软件研究所;中国科学院计算技术研究所陈睿智获国家专利权

中国科学院软件研究所;中国科学院计算技术研究所陈睿智获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院软件研究所;中国科学院计算技术研究所申请的专利一种子任务语义不变的多智能体策略模型迁移方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118863008B

龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410958934.X,技术领域涉及:G06N3/096;该发明授权一种子任务语义不变的多智能体策略模型迁移方法与系统是由陈睿智;田子康;彭少辉;李玲;胡杏;程丽敏设计研发完成,并于2024-07-17向国家知识产权局提交的专利申请。

一种子任务语义不变的多智能体策略模型迁移方法与系统在说明书摘要公布了:本发明公开了一种子任务语义不变的多智能体策略模型迁移方法与系统。本发明通过可扩展子任务编码器将待执行的多智能体任务编码为可执行的子任务,并将该子任务分配给执行多智能体任务中的每个智能体,然后通过自适应动作解码器将分配好的子任务以及当前智能体的观测数据来计算出智能体与环境交互的具体动作;当待执行的多智能体任务发生变化时,可扩展子任务编码器和自适应动作解码器可确保分配的子任务在各个多智能体任务间具有一致且可扩展的语义,同时分解到的子任务赋予了任务独立性,进而实现多智能体策略模型在各个多智能体任务间的模型迁移。本发明可实现多智能体策略模型在各个多智能体任务间的模型迁移。

本发明授权一种子任务语义不变的多智能体策略模型迁移方法与系统在权利要求书中公布了:1.一种子任务语义不变的多智能体策略模型迁移方法,其步骤包括: 1初始化跨任务通用的模型结构,得到智能体的运行环境;其中,将跨任务通用的模型中受多智能体强化学习策略控制的智能体和任务内置的智能体均定义为实体,n表示智能体的数量,m表示实体的数量,nally表示每一智能体的盟友数量,nenemy表示每一智能体的敌人数量,n=nally+1,m=n+nenemy;定义智能体i的实体观测向量oi=[oi,1,oi,2,…,oi,m],oi,1为智能体i对自身和环境的观测,oi,m为智能体i对第m‑1个实体的观测;构建一多智能体策略模型,包括可扩展子任务编码器、自适应动作解码器;所述可扩展子任务编码器包括认知编码器、Gaussian内积组件、环境认知组件、GRU轨迹编码器、Gumbel归一化函数;所述自适应动作解码器包括自适应子任务语义模块、执行动作计算模块; 2对于t时刻智能体i的实体观测向量所述认知编码器将实体观测向量中智能体i对第j个实体的实体观测向量编码为Gaussian分布的均值向量与方差向量3所述Gaussian内积组件将Gaussian分布的均值向量与方差向量转换为实体观测向量4所述环境认知组件将实体观测向量编码为实体观测嵌入向量5所述GRU轨迹编码器根据实体观测嵌入向量t‑1时刻智能体i分配的子任务和隐藏历史表示向量获取时刻t智能体i的隐藏历史表示向量6所述Gumbel归一化函数使用离散随机变量的重参数化算子Gumbel‑Softmax基于t时刻的隐藏历史表示向量计算智能体i时刻t所分配的子任务7所述自适应子任务语义模块将子任务编码为子任务嵌入向量8所述执行动作计算模块将子任务嵌入向量作为注意力机制中的查询、实体观测向量作为注意力机制中的键和值,构建自适应子任务语义向量表示t时刻智能体i与第m个实体交互的动作语义;然后将自适应子任务语义向量和第j个动作语义的相似性作为对应动作的价值或概率确定t时刻智能体i与第j个实体交互的交互动作,j=1,…,m; 9基于智能体与环境交互得到的数据轨迹对所述多智能体策略模型进行训练; 10将步骤9训练后的多智能体策略模型迁移至目标场景上。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所;中国科学院计算技术研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。