首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东财经大学

摘要:本发明提供一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质,属于图像处理技术领域,分别构建相关提示词;将提示词共同输入文本编码器中,获得分类权重;再获得在目标域的分类权重;再获得图像视觉特征;利用CLIP的零样本推断能力为目标域图像生成伪标签;通过对抗性训练来交替学习文本提示词和视觉提示词,从而将文本提示学习和视觉提示学习融合到一个协作框架中;训练文本提示词和视觉提示词,固定文本提示词,实现最大化目标域图像的预测互信息损失,以及分别最大化任意一幅图像在全局级别和类别级别的领域判别损失。实现全局级别和类别级别的领域判别和领域对齐,本发明提升了领域自适应的效果。

主权项:1.一种基于对抗式双提示学习的视觉语言模型领域自适应方法,其特征在于,方法包括:S101:分别构建视觉提示词、源域文本提示词、目标域文本提示词和每个类别特定的文本提示词;文本编码器包括L个Transformer块对于第l个Transformer块分别为源域和目标域设计了包含md个领域特定提示词单元的文本提示,分别用和表示;定义一组针对每个类别k的含mc个类别特定的提示词单元视觉编码器包含L个Transformer块对于第l个Transformer块设计了包含mv个视觉提示词的视觉提示,用表示;步骤S102中包括:通过将或与结合,将领域信息和类别信息嵌入到文本提示中;如下列公式所示, El和sl分别是输入到的词嵌入和停止标记;源域中类别k的分类权重由下列公式所示方式合成, 其中,Projt·是文本编码器的投影层;获得目标域中类别k的分类权重在视觉编码器的Transformer块中,插入视觉提示并按如下列公式进行处理, 其中,Pl和zl是输入到中的图像块嵌入和类别标记;最终图片的视觉表示是通过将zL送入一个线性投影层处理得到的,如下列公式所示,f=ProjvzL;S102:将类别名称、源域文本提示词和类别特定的文本提示词共同输入文本编码器中,获得在源域上各个类别对应的分类权重;将类别名称、目标域文本提示词和类别特定的文本提示词共同输入文本编码器中,获得在目标域上各个类别对应的分类权重;将一幅图像及视觉提示词输入视觉编码器中,获得图像视觉特征;S103:对于一幅源域图像,根据视觉特征和源域上各个类别对应的分类权重,计算该源域图像属于各个类别的概率分布;对于一幅目标域图像,根据视觉特征和目标域上各个类别对应的分类权重,计算该目标域图像属于各个类别的概率分布;构建一个额外的分类器,用于确定任意一幅图像,在领域和类别上的联合概率分布;基于该联合概率分布,通过比较图像在源域和目标域的边缘概率,构建一个全局级别的领域鉴别器;基于该联合概率分布,通过比较图像在源域某类别的概率分量和在目标域该类别的概率分量,构建一个类别级别的领域鉴别器;源域和目标域分别建立了两个并行的分类器;对于源域中的图像其对应的概率分布为其中第k个元素表示被分类为类别k的概率,如下列公式计算, 其中表示源域所有K个类别的分类权重,表示源图像的视觉特征;对于目标域图像其在不同类别上的概率分布通过下述公式获得, 方法中还建立了一个额外的分类器来确定图像在领域和类别上的联合概率分布pst;对于任意图像联合概率分布pstxi∈[0,1]2K计算方式如下列公式所示, 其中,和分别表示输入图像xi属于源域类别k和目标域类别k的概率;利用CLIP的零样本推断能力为目标域样本生成伪标签;使用表示目标图像的伪标签,将的置信度定义为S104:利用CLIP的零样本推断能力为目标域图像生成伪标签;S105:通过对抗性训练来交替学习文本提示词和视觉提示词,从而将文本提示学习和视觉提示学习融合到一个协作框架中;S106:训练文本提示词,固定视觉提示词,并分别最小化源域图像和目标域图像的预测分类损失,以及分别最小化任意一幅图像在全局级别和类别级别的领域判别损失;文本提示学习方式包括:训练源域分类器ps来最小化带标记的源域样本上的交叉熵损失,如下列公式所示, 利用目标域样本的伪标签,训练目标分类器pt来最小化交叉熵损失;在训练过程中只考虑置信水平超过阈值γ的伪标签,即: 其中,1·是一个指示函数,如果输入参数为真则返回1,否则返回0;对于所有源域图像和目标域图像,通过训练pst进一步构建一个隐式的全局级别领域鉴别器,使用下述公式所示的二元交叉熵损失进行判别, 和可以分别表示xi作为源领域图像和目标领域图像的边缘概率;方法中为每个类别构建一个类别级别的鉴别器;源域图像和目标域图像分别根据类别分成K个子集;记为类别k的源域图像子集,为相应的目标域图像子集;类别级别的领域鉴别器专注于区分同一类别中的源域和目标域图像,通过最小化以下损失来实现: 其中,和分别表示输入图像xi属于源域类别k和目标域类别k的概率;对于学习文本提示词和的最终目标如下述公式所示 其中,α是一个超参数,用于控制分类损失和领域判别损失之间的权衡;S107:训练视觉提示词,固定文本提示词,实现最大化目标域图像的预测互信息损失,以及分别最大化任意一幅图像在全局级别和类别级别的领域判别损失。

全文数据:

权利要求:

百度查询: 山东财经大学 一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。