中国矿业大学王雪松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国矿业大学申请的专利一种用于视觉强化学习泛化的跨域分割模型的训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121121127B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511661456.7,技术领域涉及:G06V10/26;该发明授权一种用于视觉强化学习泛化的跨域分割模型的训练方法是由王雪松;鹿如毅;程玉虎;万红设计研发完成,并于2025-11-13向国家知识产权局提交的专利申请。
本一种用于视觉强化学习泛化的跨域分割模型的训练方法在说明书摘要公布了:本发明公开了一种用于视觉强化学习泛化的跨域分割模型的训练方法,属于视觉强化学习和零样本泛化技术领域,旨在缓解现有视觉强化学习算法在分布偏移场景下因依赖非因果特征导致的泛化脆弱性问题。首先,设计RGB通道阈值法从原始图像中生成前景掩码,作为训练跨域分割模型的掩码标签,突破标注瓶颈;然后,结合RGB通道阈值法和分割模型实现自监督前景分割,从像素层面过滤无关干扰;最后,协同前景对齐任务和前景重建任务,补充关键背景信息并强化对前景特征的关注,学习信息完整且纯净的状态表征。本发明能够从根源避免背景带来的干扰,同时学习到有利于决策的表征信息,从而提升智能体的零样本泛化能力。
本发明授权一种用于视觉强化学习泛化的跨域分割模型的训练方法在权利要求书中公布了:1.一种跨域分割模型的训练方法,其特征在于,包括以下步骤: 建立分割模型网络、编码器网络、解码器网络、策略网络和价值网络; 建立价值网络对应的目标价值网络,目标价值网络的结构与价值网络的结构一致; 所述跨域分割模型包括分割模型网络和编码器网络; 所述解码器网络、策略网络、价值网络和目标价值网络用于对所述跨域分割模型训练,具体包括如下步骤: 步骤1,更新分割模型网络参数; 利用RGB通道阈值法从原始观测图像中生成前景掩码; 将所述原始观测图像进行增强操作后,得到增强图像; 所述增强图像作为所述分割模型网络的输入图像,将所述前景掩码作为掩码标签对所述分割模型网络进行训练,通过梯度下降法最小化分割模型网络损失函数更新分割模型网络参数,分割模型网络损失函数表示为: ; ; 其中,表示分割模型网络损失函数,表示求和符号,表示第m层侧边输出损失的权重,表示融合输出损失的权重,表示融合输出损失; 表示第m层侧边输出损失,是像素坐标,r表示横坐标,c表示纵坐标,表示掩码标签的像素坐标值,这里,表示原始观测图像的第c通道,表示对三个通道进行取交集,表示第c通道的最小阈值,表示第c通道的最大阈值; 表示分割模型网络第m个隐藏层生成的预测显著图的像素坐标值,表示由m个预测显著图叠加后获得的像素坐标值; 步骤2,通过梯度下降法最小化前景对齐任务损失函数更新编码器网络参数;通过梯度下降法最小化前景重建任务损失函数更新解码器网络参数; 前景对齐任务损失函数和前景重建任务损失函数分别表示如下: ; ; 其中,表示期望,表示编码器,表示原始观测图像,表示Hadamard乘积;表示用于前景重建的解码器; 步骤3,利用经验池中的经验样本对策略网络参数和价值网络参数进行更新,更新方法为通过梯度下降最小化策略网络损失函数和价值网络的损失函数,损失函数表示为: 其中,和分别表示t时刻下的状态和动作,表示自适应熵温度系数,表示服从基于的动作分布,表示t时刻下的奖励,表示t+1时刻下的状态价值函数; 步骤4,更新目标价值网络参数,具体为将赋值给目标价值网络参数;其中,表示目标价值网络更新率; 重复步骤1至步骤4直到获得最优策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国矿业大学,其通讯地址为:221116 江苏省徐州市铜山区大学路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励