首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于CLIP与注意力融合机制的无监督跨模态哈希检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京计算机技术及应用研究所

摘要:本发明涉及一种基于CLIP与注意力融合机制的无监督跨模态哈希检索方法,属于多媒体检索技术领域。该方法首先利用预训练图文特征提取模型CLIP基于深度神经网络的图像和文本编码器为图文数据提取富含语义信息的高维特征向量,为生成准确的伪标签相似度矩阵提供基础;其次,引入基于注意力机制的特征融合模块,通过交叉融合图像模态和文本模态之间不同层的特征表示,用于哈希码的学习过程,从而达到减小模态差异,提高检索准确率;最后,引入联合语义相似性增强矩阵构造模块,该矩阵将图文模态内部的相似性关系和图文模态之间的语义相似性关系进行联合增强,使用该矩阵能够为模型提供更准确的伪标签学习信号,更好地引导哈希码的生成。

主权项:1.一种基于CLIP与注意力融合机制的无监督跨模态哈希检索方法,其特征在于,首先做如下定义:数据集中有n个训练样本,数据集包含查询样本和检索样本集,查询样本表示待检索的图像样本或者文本样本,检索样本集表示包含多个图像或者文本模态的样本集,检索样本集中包含多个批次的图像样本集和多个批次的文本样本集,需要从检索样本集中检索出与查询样本语义相似的另一种模态样本,每个训练样本实例包括文本与图像两种不同的模态;使用表示n个训练样本的集合,qi={vi,ti},其中vi表示第i个实例图像模态的样本数据,ti表示第i个实例文本模态的样本数据,将数据qi随机分割成m个mini-batch大小的训练样本其中m为mini-batch的数目,用分别表示所提取到的图像与文本的特征,其中dv和dt分别表示图像特征和文本特征的维度;分别将图像特征Fv和文本特征Ft映射为二进制的哈希码Bv∈{-1,+1}m×c和Bt∈{-1,+1}m×c,其中c表示哈希码的长度;样本的余弦角距离反映了样本之间的余弦相似度关系;向量和的余弦距离定义如下: 其中,||·||2表示二范式;通过余弦距离能够构造余弦相似度矩阵;汉明距离用于测量二值哈希代码之间的距离,它是等长字符串中不同字符的数量;给定哈希码hi和hj,汉明距离的计算公式如下: 其中,c是哈希码的长度,⊙是hi和hj的点积;基于以上定义,执行以下步骤:1使用预训练模型CLIP提取图文原始语义特征对于图像和文本模态,均采用预训练模型CLIP作为骨干网络进行特征提取;定义经由CLIP提取的图像特征为Fv,提取的文本特征为Ft;2引入一个注意力融合模块对提取到图文特征进行融合注意力融合模块利用注意力机制的计算公式对原始语义特征Fv和Ft进行计算得到经注意力机制融合后的图像特征向量Fv*和经注意力机制融合后的文本特征向量Ft*;3构建图文语义相似性增强矩阵,用于指导哈希编码生成利用提取的图像特征Fv构建图像相似性矩阵Sv,利用提取的文本特征Ft构建文本相似性矩阵St,将这两个相似度矩阵进行融合生成语义相似性关联矩阵Sc,然后,对三个矩阵Sv、St、Sc加权融合,构建一个语义相似性增强矩阵SA;4基于语义相似性增强矩阵SA为查询样本分别生成图像模态和文本模态的二进制哈希编码,并基于SA为检索样本集中的样本分别生成图像模态和文本模态的二进制哈希编码;5基于步骤4生成的二进制哈希编码计算图像模态的查询样本到文本模态的检索样本集中样本的汉明距离;并以同样的步骤计算文本模态的查询样本到图像模态的检索样本集中样本的汉明距离;6将步骤5的结果计算得到的两类汉明距离分别按照从小到大的顺序进行排序并返回检索结果。

全文数据:

权利要求:

百度查询: 北京计算机技术及应用研究所 基于CLIP与注意力融合机制的无监督跨模态哈希检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。