哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)漆舒汉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种基于置换偏置与对比解码的智能体动作预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119129640B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411056914.X,技术领域涉及:G06N3/008;该发明授权一种基于置换偏置与对比解码的智能体动作预测方法是由漆舒汉;曹阳;张加佳;吴宇琳;唐琳琳;张书豪设计研发完成,并于2024-08-02向国家知识产权局提交的专利申请。
本一种基于置换偏置与对比解码的智能体动作预测方法在说明书摘要公布了:本发明公开了一种基于置换偏置与对比解码的智能体动作预测方法,所述方法包括:构建策略生成模型,包括Encoder模块和Decoder模块,获取局部观测向量和动作序列,将局部观测向量输入Encoder模块进行处理,得到智能体的观测表示,并将观测表示传递给Decoder模块,根据观测表示得到观测的智能体状态值函数;将动作序列输入到Decoder模块与观测表示一起进行解码,得到隐向量,将隐向量进行变换得到具有动作置换性的智能体动作集合,将具有动作置换性的智能体动作集合进行对比探索解码,得到执行动作,根据智能体状态值函数和执行动作计算总损失函数,得到目标模型,使用目标模型预测目标智能体的行为。本发明提高了对于目标智能体动作的预测精度。
本发明授权一种基于置换偏置与对比解码的智能体动作预测方法在权利要求书中公布了:1.一种基于置换偏置与对比解码的智能体动作预测方法,其特征在于,所述基于置换偏置与对比解码的智能体动作预测方法包括: 构建策略生成模型,获取训练数据,所述训练数据包括智能体的局部观测向量和动作序列,其中,所述策略生成模型包括Encoder模块和Decoder模块; 所述Encoder模块包括:第一嵌入层、第一排序层、输入置换不变网络、编码层和多层感知机层; 所述Decoder模块包括:第二嵌入层、第二排序层、解码层、输出置换同变网络和对比解码网络; 将所述局部观测向量输入到所述Encoder模块进行嵌入,得到局部观测向量的嵌入表示,将局部观测向量的嵌入表示进行排序和变换处理,得到具有观测置换不变性的智能体观测集合,将具有观测置换不变性的智能体观测集合进行编码,得到智能体的观测表示,根据所述观测表示得到观测的智能体状态值函数,并将所述观测表示传递给所述Decoder模块; 所述将所述局部观测向量输入到所述Encoder模块进行嵌入,得到局部观测向量的嵌入表示,将局部观测向量的嵌入表示进行排序和变换处理,得到具有观测置换不变性的智能体观测集合,具体包括: 将多个智能体分别对应的所述局部观测向量的维度嵌入到所述第一嵌入层进行维度统一,得到多个局部观测向量的嵌入表示; 将多个局部观测向量的嵌入表示输入到所述第一排序层进行智能体维度上的排序,得到多个排序后观测; 构造第一超网络,将每个所述排序后观测输入到所述输入置换不变网络中,通过所述第一超网络为每个所述排序后观测的实体生成网络层权重,对多个所述排序后观测的实体的网络层权重进行累加求和得到具有观测置换不变性的智能体观测集合; 所述将具有观测置换不变性的智能体观测集合进行编码,得到智能体的观测表示,根据所述观测表示得到观测的智能体状态值函数,并将所述观测表示传递给所述Decoder模块,具体包括: 将具有观测置换不变性的智能体观测集合输入到所述编码层的五层Transformer Encoder模块进行编码,得到多个智能体的观测表示,并将多个所述观测表示传递给所述Decoder模块以计算隐向量; 将所述观测表示通过所述多层感知机层进行计算,得到观测的智能体状态值函数; 所述编码层包括五层Transformer模块,所述Transformer模块包括编码器和解码器; 所述编码器用于接受一系列智能体的观测,并将所述观测编码为一系列潜在表示并传递给解码器,所述解码器用于以顺序和自回归的方式生成每个智能体的最优动作; 将所述动作序列输入到所述Decoder模块进行嵌入,得到所述动作序列的嵌入表示,将所述动作序列的嵌入表示进行排序,将排序后的动作序列的嵌入表示和所述Encoder模块传递来的所述观测表示进行解码,得到隐向量,将所述隐向量进行变换处理,得到具有动作置换性的智能体动作集合,将具有动作置换性的智能体动作集合进行对比探索解码,得到智能体的执行动作; 所述将所述动作序列输入到所述Decoder模块进行嵌入,得到所述动作序列的嵌入表示,将所述动作序列的嵌入表示进行排序,将排序后的动作序列的嵌入表示和所述Encoder模块传递来的所述观测表示进行解码,得到隐向量,具体包括: 将多个智能体分别对应的所述动作序列嵌入到所述第二嵌入层进行维度统一,得到多个所述动作序列的嵌入表示; 将多个所述动作序列的嵌入表示输入到所述第二排序层进行智能体维度上的排序,得到多个排序后的动作序列的嵌入表示; 获取所述Encoder模块传递来的多个所述观测表示,将多个排序后的动作序列的嵌入表示和所述Encoder模块传递来的多个所述观测表示输入到所述解码层的五层Transformer Encoder模块进行解码,得到多个隐向量; 所述将所述隐向量进行变换处理,得到具有动作置换性的智能体动作集合,将具有动作置换性的智能体动作集合进行对比探索解码,得到智能体的执行动作,具体包括: 构造第二超网络,将每个所述隐向量输入到所述输出置换同变网络中,通过所述第二超网络为每个所述隐向量的实体生成网络层权重,对多个所述隐向量的实体的网络层权重进行累加求和得到具有动作置换性的智能体动作集合; 获取所述解码层的五层Transformer Encoder模块中前四层Transformer Encoder模块的中间输出,将所述中间输出与第五层Transformer Encoder模块输出的所述隐向量进行对比探索解码,得到智能体的执行动作; 所述对比探索解码通过将输出层应用于中间Transformer层输出的隐向量,并将所述隐向量与顶层输出进行对比以实现对比解码,打破多智能体任务中的幻觉循环,提升动作解码的探索性;根据所述智能体状态值函数以及所述执行动作计算出总损失函数,根据所述总损失函数对所述策略生成模型进行更新,直至所述总损失函数收敛,得到目标模型; 获取电子竞技游戏中的目标智能体,将所述目标智能体的局部观测向量输入到所述目标模型进行计算,预测出所述目标智能体的动作,根据所述目标智能体的动作控制所述目标智能体的行为。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励