买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请公开了一种跨模态图文匹配训练方法及装置、存储介质、电子设备,该方法包括将待训练图像输入至图像编码器,由图像编码器对待训练图像进行编码,得到待训练图像的图像向量特征;将待训练图像的图像内容的描述作为文本输入文本编码器,文本编码器对文本进行分词,将文本转换成token向量,将token向量进行基于transformer的文本编码处理,得到编码为与图像向量特征的维度相同的文本向量特征;训练达到所选取的样本数后,图像编码器和文本编码器分别对图像向量特征和文本向量特征进行模态交互,利用反向梯度更新图像编码器和文本编码器模型参数。本申请支持更精确和个性化方式进行图文匹配联合检索。
主权项:1.一种跨模态图文匹配训练方法,其特征在于,所述方法包括:将待训练图像输入至图像编码器,由所述图像编码器对所述待训练图像进行缩放处理,使所述待训练图像达到设定的长宽大小的待输入图像;判断所述待输入图像是否存在编辑完成的显著性目标掩码图,如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块,通过所述掩码融合模块获得所述输入图像的融合特征;如果所述待输入图像没有显著性目标掩码图,则对所述待输入图像进行显著性目标检测,生成所述输入图像的显著性目标掩码图,并将所述显著性目标掩码图和所述输入图像输入至掩码融合模块,通过所述掩码融合模块获得所述输入图像的融合特征,所述对所述待输入图像进行显著性目标检测,生成所述输入图像的显著性目标掩码图,进一步包括:将设定分辨率的所述待输入图像进行多层3×3卷积处理后,分别进行多次的下采样、堆叠处理,当特征分辨率降低到设定阈值后,再对下采样的低分辨率特征进行上采样特征融合UFFM处理;即首先采用1×1卷积对低分辨率特征进行降维,再上采样到高分辨率特征相同的尺度大小,依次使用1×1卷积和3×3卷积进行通道降维和特征融合;对UFFM处理后的特征进行插值上采样恢复到输入图像相同的尺度大小,再进行3×3卷积以及1×1卷积的处理,将上采样特征降维为1通道,再经过sigmoid激活函数生成空间注意力特征;将所述空间注意力特征和输入特征进行点乘,得到最终生成所述输入图像的显著性目标概率图,基于所述显著性目标概率图生成所述输入图像的显著性目标掩码图;将所述融合特征输入至图像注意力编码模块,将输入的融合特征经过神经网络模型编码成图像向量特征;以及将所述待训练图像的图像内容的描述作为文本输入文本编码器,所述文本编码器对所述文本进行分词,将所述文本转换成token向量,将所述token向量进行基于transformer的文本编码处理,得到编码为与所述图像向量特征的维度相同的文本向量特征;训练达到所选取的样本数后,所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互,计算向量的余弦相似度和交叉熵损失,并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。
全文数据:
权利要求:
百度查询: 苏州大创科技有限公司 跨模态图文匹配训练方法及装置、存储介质、电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。