一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质

导航：龙图腾网> 最新专利技术> 一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东财经大学

摘要：本发明提供一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质，属于图像处理技术领域，分别构建相关提示词；将提示词共同输入文本编码器中，获得分类权重；再获得在目标域的分类权重；再获得图像视觉特征；利用CLIP的零样本推断能力为目标域图像生成伪标签；通过对抗性训练来交替学习文本提示词和视觉提示词，从而将文本提示学习和视觉提示学习融合到一个协作框架中；训练文本提示词和视觉提示词，固定文本提示词，实现最大化目标域图像的预测互信息损失，以及分别最大化任意一幅图像在全局级别和类别级别的领域判别损失。实现全局级别和类别级别的领域判别和领域对齐，本发明提升了领域自适应的效果。

主权项：1.一种基于对抗式双提示学习的视觉语言模型领域自适应方法，其特征在于，方法包括：S101：分别构建视觉提示词、源域文本提示词、目标域文本提示词和每个类别特定的文本提示词；文本编码器包括L个Transformer块对于第l个Transformer块分别为源域和目标域设计了包含md个领域特定提示词单元的文本提示，分别用和表示；定义一组针对每个类别k的含mc个类别特定的提示词单元视觉编码器包含L个Transformer块对于第l个Transformer块设计了包含mv个视觉提示词的视觉提示，用表示；步骤S102中包括：通过将或与结合，将领域信息和类别信息嵌入到文本提示中；如下列公式所示， El和sl分别是输入到的词嵌入和停止标记；源域中类别k的分类权重由下列公式所示方式合成，其中，Projt·是文本编码器的投影层；获得目标域中类别k的分类权重在视觉编码器的Transformer块中，插入视觉提示并按如下列公式进行处理，其中，Pl和zl是输入到中的图像块嵌入和类别标记；最终图片的视觉表示是通过将zL送入一个线性投影层处理得到的，如下列公式所示，f＝ProjvzL；S102：将类别名称、源域文本提示词和类别特定的文本提示词共同输入文本编码器中，获得在源域上各个类别对应的分类权重；将类别名称、目标域文本提示词和类别特定的文本提示词共同输入文本编码器中，获得在目标域上各个类别对应的分类权重；将一幅图像及视觉提示词输入视觉编码器中，获得图像视觉特征；S103：对于一幅源域图像，根据视觉特征和源域上各个类别对应的分类权重，计算该源域图像属于各个类别的概率分布；对于一幅目标域图像，根据视觉特征和目标域上各个类别对应的分类权重，计算该目标域图像属于各个类别的概率分布；构建一个额外的分类器，用于确定任意一幅图像，在领域和类别上的联合概率分布；基于该联合概率分布，通过比较图像在源域和目标域的边缘概率，构建一个全局级别的领域鉴别器；基于该联合概率分布，通过比较图像在源域某类别的概率分量和在目标域该类别的概率分量，构建一个类别级别的领域鉴别器；源域和目标域分别建立了两个并行的分类器；对于源域中的图像其对应的概率分布为其中第k个元素表示被分类为类别k的概率，如下列公式计算，其中表示源域所有K个类别的分类权重，表示源图像的视觉特征；对于目标域图像其在不同类别上的概率分布通过下述公式获得，方法中还建立了一个额外的分类器来确定图像在领域和类别上的联合概率分布pst；对于任意图像联合概率分布pstxi∈[0,1]2K计算方式如下列公式所示，其中，和分别表示输入图像xi属于源域类别k和目标域类别k的概率；利用CLIP的零样本推断能力为目标域样本生成伪标签；使用表示目标图像的伪标签，将的置信度定义为S104：利用CLIP的零样本推断能力为目标域图像生成伪标签；S105：通过对抗性训练来交替学习文本提示词和视觉提示词，从而将文本提示学习和视觉提示学习融合到一个协作框架中；S106：训练文本提示词，固定视觉提示词，并分别最小化源域图像和目标域图像的预测分类损失，以及分别最小化任意一幅图像在全局级别和类别级别的领域判别损失；文本提示学习方式包括：训练源域分类器ps来最小化带标记的源域样本上的交叉熵损失，如下列公式所示，利用目标域样本的伪标签，训练目标分类器pt来最小化交叉熵损失；在训练过程中只考虑置信水平超过阈值γ的伪标签，即：其中，1·是一个指示函数，如果输入参数为真则返回1，否则返回0；对于所有源域图像和目标域图像，通过训练pst进一步构建一个隐式的全局级别领域鉴别器，使用下述公式所示的二元交叉熵损失进行判别，和可以分别表示xi作为源领域图像和目标领域图像的边缘概率；方法中为每个类别构建一个类别级别的鉴别器；源域图像和目标域图像分别根据类别分成K个子集；记为类别k的源域图像子集，为相应的目标域图像子集；类别级别的领域鉴别器专注于区分同一类别中的源域和目标域图像，通过最小化以下损失来实现：其中，和分别表示输入图像xi属于源域类别k和目标域类别k的概率；对于学习文本提示词和的最终目标如下述公式所示其中，α是一个超参数，用于控制分类损失和领域判别损失之间的权衡；S107：训练视觉提示词，固定文本提示词，实现最大化目标域图像的预测互信息损失，以及分别最大化任意一幅图像在全局级别和类别级别的领域判别损失。

全文数据：

权利要求：

百度查询：山东财经大学一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种进气管的清洗方法及半导体工艺设备

下一篇：一种面向单层隔振系统的惯容器设计方法

相关技术

一种进气管的清洗方法及半导体工艺设备

一种面向单层隔振系统的惯容器设计方法

半导体器件及其制备方法

一种双头机床的半导体芯片夹取装置

一种磁芯的包胶带单元

一种正负可调叠加高频脉冲的电源

一种潮气量检测系统及装置

一种数据加载方法、装置、电子设备及存储介质

一种投影区域的确定方法、装置、设备及存储介质

一种荧光硅点、荧光硅点制备方法、pH检测方法及生物传感器

一种基于自适应特征选择的单样本部件分割方法

用于使用子图片对特征进行视频编码的系统和方法

方法相关技术

记录方法_精工爱普生株式会社_202410329157.2

分类方法_株式会社半导体能源研究所_202080059927.6

分离方法_大金工业株式会社_202380021486.4

唤醒信号的接收方法、发送方法、配置方法、装置及设备_OPPO广东移动通信有限公司_202280091619.0

原版、确定原版的图案的方法、曝光的方法、以及制造物品的方法_佳能株式会社_202410311669.6

信号传输方法、信号检测方法、装置及通信设备_维沃移动通信有限公司_202310304876.4

验证方法_上海兆芯集成电路股份有限公司_202011127602.5

接入处理方法、信息处理方法、配置发送方法及设备_维沃移动通信有限公司_202310290704.6

训练SEM图像选择方法及使用该方法的SEM设备对准方法_三星电子株式会社_202410252998.8

图像编码/解码方法及发送图像数据的方法_LG电子株式会社_202411023693.6

视觉相关技术

深度补全视觉惯性定位方法、深度补全模型及视觉装置_电子科技大学(深圳)高等研究院_202410799529.8

一种机器视觉定位方法_成都航空职业技术学院_202411196580.6

基于机器视觉的印刷设备_扬州东兴印刷包装有限公司_202411178558.9

一种视觉检测机机架_常州市永富智能科技有限公司_202420260877.3

一种智能视觉大数据门禁系统_国富瑞(福建)信息技术产业园有限公司_202411158124.2

一种乳粉质量视觉检测方法及系统_陕西圣唐乳业有限公司_202411162183.7

基于计算机视觉的目标检测方法_安徽博诺思信息科技有限公司_202411171158.5

自动化视觉的多点式光源_苏州匠心信息科技有限公司_202420624413.6

一种具有散热的船舶视觉导航雷达_无锡市慧航智能科技有限公司_202323535633.6

工业3D视觉识别系统_星猿哲科技(上海)有限公司_202310293335.6

自适应相关技术

自适应式分离装置及方法_宁波大学_202111071479.4

一种自适应冰水机_宁波微满超自动化机械有限公司_202420198692.4

一种自适应缓冲义齿_翰林(广州)义齿科技有限公司_202420156252.2

一种自适应洗发帽_宜昌青云志人力资源有限公司_202420130915.3

具有自适应闪光的注视感知色调映射_元平台技术有限公司_202410328984.X

信道环境自适应方法、窄带宽会议系统_中国人民解放军91977部队_202210453921.8

自适应零件装配方法及系统_上海非夕机器人科技有限公司_202410597205.6

自适应元数据采集及变更追踪系统_中科聚信信息技术(北京)有限公司_202410809063.5

自适应泵的控制方法及装置_浙江日井泵业股份有限公司_202410761714.8

一种自适应阻尼器_深圳市宁博尔科技有限公司_202323605729.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于对抗式双提示学习的视觉语言模型领域自适应方法、终端机及可读存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务