南京理工大学李泽超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利基于大规模视觉语言模型的弱监督哈希图像检索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119025695B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410791031.7,技术领域涉及:G06F16/53;该发明授权基于大规模视觉语言模型的弱监督哈希图像检索方法及系统是由李泽超;王浩骅;金露设计研发完成,并于2024-06-19向国家知识产权局提交的专利申请。
本基于大规模视觉语言模型的弱监督哈希图像检索方法及系统在说明书摘要公布了:本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。使用含有弱监督标签的训练集微调大规模视觉语言模型CLIP,将得到的微调权重和原始权重进行线性插值作为后续使用的模型权重;设计弱监督标签优化模块在推理阶段消除冗余特征;采用预训练的AlexNet网络提取图像的视觉特征,通过哈希层和重构层将图像特征分别映射成哈希码和与文本特征同维度的特征向量;通过多头自注意机制计算图片对应各标签的分数;设计了一个平衡损失使得模型在训练过程中更加关注较难的尾部类别。本发明能够有效缓解数据集中样本分布的长尾问题,更加精准地实现弱监督哈希图像检索。
本发明授权基于大规模视觉语言模型的弱监督哈希图像检索方法及系统在权利要求书中公布了:1.一种基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于,包括以下步骤: 第一步:利用含有弱监督标签的训练集微调对比学习的语言图像预训练模型CLIP,并通过线性插值的方法将原始预训练权重和微调后的权重进行融合; 第二步:设计弱监督标签优化模块,用于将噪音标签替换成与图像内容相关性更高的标签; 第三步:采用预训练的卷积神经网络提取图像特征,然后训练哈希网络将图像特征分别映射为与哈希码和文本特征相同维度的特征向量; 第四步:使用多头自注意力机制将图像特征和文本特征进行交互,动态的调整注意力的分配; 第五步:设计一个平衡损失,用于进一步约束哈希网络中的参数更新; 第六步:通过训练好的哈希网络模型得到查询图片和数据库图片的哈希码,计算哈希码之间的汉明距离并进行排序,最后选取距离最小的图片集作为哈希图像检索结果; 第一步使用训练数据Strain={xi,Ti|i=1,…,Ntr}微调CLIP模型,其中xi∈RH×W×3代表训练集中的图像,Ti代表图像xi对应的弱监督标签集,Ntr表示训练集中图片的总数;使用训练集中的所有图片作为微调过程的视觉输入,对于图像xi使用提示模版aphotoofTi作为其对应的文本描述,其中Ti标签集中的每一个标签都用空格来连接成一个字符串;微调过程中图像端和文本端均采用交叉熵损失进行参数的优化,微调后的权重记为θfinetune,原始权重记为θzeroshot;将原始模型权重与微调后的模型权重进行线性插值,得到一个新的模型权重记为θfinal: θfinal=1-α·θzeroshot+α·θfinetune 其中,插值系数α用于控制模型权重的贡献比例; 第二步设计弱监督标签优化模块实现噪音标签的优化; 2.1在优化原始弱监督标签的过程中,首先使用欧几里得范数归一化后的由模型权重θfinal得到的图像特征和文本特征进行逐元素相乘,得到原始的跨模态交叉表征Fo,计算如下: 其中Fi代表使用模型权重θfinal后CLIP图像编码器生成的图像特征,Ft代表使用模型权重θfinal后CLIP文本编码器生成的文本特征; 然后使用类别标记特征Fc和文本特征Ft计算相似度分数s如下: 使用各类别的相似度分数与均值分数的比值作为权重w计算如下: 之后对每个特征做类别加权,然后在类别维度求均值作为冗余特征Fr,采用公式描述为下列形式: Fr=meanFo⊙expandw 通过对原始的跨模态交叉表征Fo去除冗余特征Fr,得到新的跨模态交叉表征Fn计算如下: Fn=Fo-expandFr假设图像xi对应的弱监督标签集Ti中的常见标签个数为α,那么取与图像内容相关性最高的前topα个标签作为优化后的标签,计算如下: 2.2按2.1过程优化训练集Strain中所有图片的弱监督标签,得到过滤掉噪音标签与减少冗余特征影响的优化标签集T*,使用模型权重θfinal后的CLIP文本编码器将T*中的标签转化成文本特征向量t; 第三步采用预训练的卷积神经网络提取到图像特征;哈希网络中通过一个全连接层将图像特征的维度映射成对应哈希码比特数的维度,并使用Sigmoid函数进行激活;这个过程采用量化损失L1进行参数优化,公式如下: 其中,m表示最小批次的大小,b代表哈希码中的比特数量,hi表示哈希码,Ι是与哈希码同维度的全1向量;之后将得到的哈希特征向量h再次通过一个全连接层,并使用LeakyReLU函数进行激活,将h特征维度映射为与t相同维度的向量ν,实现之后的跨模态特征交互; 第四步使用多头自注意力机制将第三步得到的图像特征ν和第二步得到的文本特征t进行交互;对于每个头有三个权重矩阵用于计算Query、Key和Value,满足:使用缩放点积注意力机制计算注意力权重,公式如下: 其中,dk代表每个头的维度,计算得到的注意力输出表示为: 将所有头的输出拼接在一起,然后通过一个线性层,计算如下: Z=ConcatZ1,Z2,…,ZhWO 其中,WO是线性层的权重矩阵;之后使用一个前馈网络进一步处理和转换注意力层输出的特征,其包含两个全连接层,一个激活层和一个Dropout层;第一个全连接层将特征维度从D变换为2×D,第二个全连接层将特征维度从2×D恢复成D,中间的激活层采用ReLU激活函数,计算如下: FFNZ=W2max0,W1Z+b1+b2 其中,W1,b1,W2,b2是两层全连接层的参数;使用多头注意力输出与前馈网络的输出进行残差连接得到最终的文本向量t*,计算如下: t*=Z+FFNZ 使用动态自适应的文本向量t*与对应的图像特征ν进行对齐,这个过程采用铰链损失L2进行参数优化,公式如下: 其中,ε表示边界参数;使用两两相似损失L3实现哈希空间的汉明距离与余弦距离具有相似的分布,公式如下: 第五步设计一个平衡损失,在量化损失L1、铰链损失L2和两两相似损失L3之后进一步约束哈希网络模型参数优化,平衡损失L4计算如下: 其中,参数β是平衡因子,C是经过弱监督标签优化模块后生成的新标签集T*中的类别数,代表图片xi在T*中的独热编码,tc表示T*中第C个文本输入到使用θfinal权重的CLIP文本编码器后生成的文本向量,γ作为调节因子,用于调整对较难样本的关注程度;平衡损失L4通过动态调整分类权重,实现更好的学习相似度较低的标签样本; 第六步通过训练好的网络模型得到查询图片和数据库图片的哈希码,计算哈希码之间的汉明距离并进行排序,最后选取距离最小的图片集作为哈希图像检索结果;其中,假设模型生成的查询图片的哈希码为hq,数据库图片的哈希码为hd;计算二者之间的汉明距离公式如下: 其中,b表示哈希码的比特数,hq[k]和hd[k]分别是哈希码hq和hd的第k位;根据计算出的汉明距离对所有数据库图片进行排序,选取距离最小的前N张图片作为最后的弱监督哈希图像检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励