西北工业大学郭斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于零样本泛化的强化学习模型环境自适应方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116245138B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211715541.3,技术领域涉及:G06N3/04;该发明授权一种基于零样本泛化的强化学习模型环境自适应方法是由郭斌;方禹杨;刘佳琪;邱晨;於志文设计研发完成,并于2022-12-28向国家知识产权局提交的专利申请。
本一种基于零样本泛化的强化学习模型环境自适应方法在说明书摘要公布了:本发明公开了一种基于零样本泛化的强化学习模型环境自适应方法,首先从模型与环境交互得到训练数据中随机取出两组数据,对其中一组状态图像进行数据增强,然后分别对增强和未增强原状态图像进行语义编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息,再分别通过Q函数得到预测值,最后联合两组数据的预测误差更新增强数据的编码器。
本发明授权一种基于零样本泛化的强化学习模型环境自适应方法在权利要求书中公布了:1.一种基于零样本泛化的强化学习模型环境自适应方法,其特征在于,包括以下步骤: 步骤1:数据采集; 通过强化学习模型控制智能体按策略π采取行动与环境交互,收集st,at,rt,st+1序列作为训练数据;在训练过程中,数据收集与模型参数更新交替进行;st,at,rt,st+1分别表示智能体当前时刻的状态图像、采取的行动、获得的奖励和下一时刻的状态图像; 步骤2:数据增强; 从训练数据B中随机选择t时刻与h时刻的两组数据st,at,rt,st+1、sh,ah,rh,sh+1,将状态图像st和sh裁剪成A×A的大小,对st状态图像进行数据增强,得到s′t;使用干扰图片I对状态图片st进行mixup线性数据增强: fst=αst+1-αI 式中,fst表示增强后的状态图像,α表示权重系数; 步骤3:数据编码; 对状态图像s′t和sh进行编码,通过IBN模块与注意力模块提取风格无关语义信息与关键内容语义信息;所述IBN模块包括IN层和BN层,IN层能够学习外观变化不变即域无关的特征,BN层能够学习内容信息; 步骤3-1:低级特征提取;分别对状态图片s′t和sh进行下采样,在高分辨下提取图像的低级特征Ft和Fh; 步骤3-2:风格无关语义特征提取;通过IBN模块分别对Ft和Fh提取风格无关的语义特征,得到F′t和F′h; 步骤3-3:关键信息语义特征提取;通过CBAM注意力模块分别对F′t和F′h提取关键信息的语义特征,得到F″t和F″h;提取过程原理如下: 步骤3-3-1:通道注意子模块对输入特征F使用平均池化和最大池化操作来聚合特征图的空间信息,生成两个不同的空间上下文描述符和分别表示平均池化特征和最大池化特征,将两个描述符转发到共享网络,以生成通道注意力图Mc;共享网络由多层感知器MLP和一个隐藏层组成;在将共享网络应用于每个描述符之后,逐元素求和合并输出特征向量F′: McF=σMLPAveragePoolF+MLPMaxPoolF 式中,σ表示表示S形函数; 步骤3-3-2:空间注意子模块对特征F沿通道轴应用平均池化和最大池化操作,生成两个2D图和通过标准卷积层将这些数据连接起来并进行卷积,生成2D空间注意力图Ms: MsF=σf7×7[AveragePoolF;MaxPoolF] 步骤3-3-3:CBAM模块即通道注意子模块与空间注意子模块的顺序组合,整体注意力过程为: 其中,表示元素相乘,F″为最终输出的特征;在乘法运算时,相应地提取关注值:通道注意子模块提取关键信息内容,空间注意子模块提取关键信息位置; 步骤4:Q函数预测; 分别将t时刻的状态特征F″t和动作at组成的状态动作对F″t,at与h时刻的状态特征F″h和动作ah组成的状态动作对F″h,ah输入到Q函数中,得到Q值;Q函数定义为: qt=QθF″t,at 目标状态动作值函数定义为: 其中为θ的指数移动平均值,γ表示权重系数; 步骤5:联合优化Q函数; 使用增强的数据流s′t,at,rt,st+1和未增强的数据流sh,ah,rh,sh+1联合优化Q函数;Q函数优化目标为: 其中,α和β为增强数据与未增强数据在优化中的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。