电子科技大学杨阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于假阴性消除策略的图像文本匹配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116863273B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310849769.X,技术领域涉及:G06V10/774;该发明授权一种基于假阴性消除策略的图像文本匹配方法是由杨阳;宾燚;李灏轩;李伟涵设计研发完成,并于2023-07-11向国家知识产权局提交的专利申请。
本一种基于假阴性消除策略的图像文本匹配方法在说明书摘要公布了:本发明公开了一种基于假阴性消除策略的图像文本匹配方法,在训练过程中,当负样本数量很少时,假阴性存在的数量也会更少。所以在图像编码模块和文本编码模块的训练阶段,为了在不增加GPU显存负担的情况下,获取更多的负样本,引入了动量记忆模块,该模块由带有动量更新方式的图像编码器即动量图像编码器、动量图像文本编码器和两个记忆库即图像记忆库Mv、文本记忆库Mt组成。同时,假阴性消除策略是通过锚点与负样本的全局特征的相似度,计算出该负样本为假阴性的概率,再根据假阴性概率计算权重,最后根据权重选择要推开的负样本,用于损失函数的计算。其中,假阴性概率越高,采样权重越低,以此实现假阴性消除。这样,选择要推开的负样本时,通过假阴性概率的计算,尽可能的避免假阴性被选择,实现更好的模型训练,得到更具区分性的模态特征。
本发明授权一种基于假阴性消除策略的图像文本匹配方法在权利要求书中公布了:1.一种基于假阴性消除策略的图像文本匹配方法,其特征在于,包括以下步骤: 1、训练阶段 1.1、提取图像文本特征 在训练数据集中选取一批b张图像{I1,I2,…,Ix,…,Ib}以及b张图像各自一一对应描述图像的文本{T1,T2,…,Tx,…,Tb}; 1.1.1、图像特征的提取 对b张图像采用图像编码器进行图像特征的提取,对于第x张图像通过将图像划分为多个图像块进行特征的嵌入,从而构成图像特征Vx: 其中,为第x张图像Ix的第i个图像块特征,m为图像块的数目,采用平均池化操作得到第x张图像Ix全局特征 1.1.2、文本特征的提取 对b个文本采用文本编码器进行文本特征的提取,对于第x个文本Tx提取文本中每个单词的特征表示,从而构成文本特征Wx: 其中,为第x个文本Tx的第j个单词特征,l为单词的数目,采用平均池化操作得到第x个文本Tx的全局特征 1.1.3、动量特征的提取 同时,对b张图像使用动量图像编码器按照步骤1.1.1的方法,得到动量图像特征并存入图像记忆库Mv中; 对b个文本使用动量文本编码器按照步骤1.1.2的方法,得到动量文本特征并存入文本记忆库Mt; 图像记忆库Mv与文本记忆库Mt均为一个队列,队列长度均为K; 1.2、计算图像文本相似度 对于第x张图像Ix的全局特征计算其与文本记忆库Mt中每个动量文本特征的相似度对于第x个文本Tx的全局特征计算其与图像记忆库Mv中每个动量图像特征的相似度 1.3、消除假阴性负样本 1.3.1、计算匹配对以及不匹配对相似度分布 将相似度依据图像、文本是否是匹配对与不匹配对分为匹配对的相似度与不匹配对的相似度,结合前面批次累积的匹配对的相似度与不匹配对的相似度,计算出匹配对的相似度均值μ+和方差σ+以及不匹配对的相似度均值μ-与方差σ-; 构建匹配对相似度分布fS|cs: 构建不匹配对相似度分布 其中,c表示图像与文本匹配,表示图像与文本不匹配,S表示关于图像与文本之间相似度的随机变量,s是表示相似度; 1.3.2、计算后验概率PC=c|S=s: 其中,Pc=p,p为设置的超参数; 1.3.3、计算第x个锚点的采样权重 根据后验概率PC=c|S=s,对于第x个锚点,将其记为ax,其另一模态的第i个负样本的全局特征的采样权重为: 其中,λ设置为0.01,d+是距离锚点ax最远的另一模态的正样本的全局特征; 锚点为第x张图像Ix全局特征时,其另一模态的第i个负样本为第x张图像Ix的第i个负样本文本的全局特征,同样,锚点为第x个文本Tx全局特征时,其另一模态的第i个负样本为第x个文本Tx的第i个负样本图像的全局特征,s*,*表示求全局特征的相似度; 1.3.4、采样得到负样本图像、文本的全局特征 根据采样权重采样负样本文本或图像的全局特征,得到第x张图像Ix的所有负样本文本的全局特征中根据采样权重采样得到的全局特征第x个文本Tx的所有负样本图像的全局特征中根据采样权重采样得到的全局特征 1.4、计算损失函数 其中,margin为一个约束超参数; 1.5、训练图像编码器、文本编码器以及动量图像编码器、动量文本编码器 对于图像编码器的参数θq v、文本编码器的参数θq t,通过在损失函数上使用反向传播算法计算梯度进行参数的更新; 对于动量图像编码器的θk v、动量文本编码器的参数θk t,其更新方式不再是根据梯度回传,而是通过动量更新方式更新: θk v←mθk v+1-mθq v θk t←mθk t+1-mθq t m为动量更新参数; 不断重复步骤1.1到步骤1.5,直到收敛,完成图像编码器、文本编码器的训练; 2、推理阶段 对于图像检索文本,使用图像编码器提取图像全局特征,在文本库中与所有文本全局特征计算相似度进行比较,选择相似度最大的匹配文本,完成匹配; 对于文本检索图像,使用文本编码器提取文本全局特征,在图像库中与所有图像全局特征计算相似度进行比较,选择相似度最大的匹配文本,完成匹配。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励