首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合局部和全局语义的图像文本匹配算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:鲁东大学

摘要:本发明公开了一种融合局部和全局语义的图像文本匹配算法,属于多媒体检索的跨模态检索技术领域。本发明通过特征提取算法分别把图像和文本特征提取出来;通过视觉上下文编码模块进一步的挖掘图像中局部特征之间的关系以得到上下文关系及更多的语义信息,然后进行图像文本的全局和局部相似度计算;最后,融合全局和局部图像文本相似度从而形成一个多粒度融合网络以提高图文匹配的准确度。本发明的图文匹配算法更有效,不仅保留了图像的局部细粒度信息,还保留了其全部的背景信息,进一步提高了图像文本匹配的准确率,具有良好的应用前景和可观的市场价值。

主权项:1.一种融合局部和全局语义的图像文本匹配算法,其特征在于,其包括以下步骤:步骤S1,使用MSCOCO数据集,建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;步骤S2,分别利用图像和文本的特征提取算法提取训练集和测试集的图像和文本的特征;其包括以下步骤:步骤S21,将训练集和测试集的图像输入到Resnet-152中提取图像的全局特征,将训练集和测试集的图像FasterR-CNN中提取图像的初始局部特征,用,表示图像的全局特征,表示经过特征提取算法重塑后的大小,用,表示图像的局部特征,表示一个图像中区域的个数;步骤S22,将训练集和测试集的文本输入到Bi-GRU中提取文本的局部特征,用,表示文本的局部特征,表示文本的长度;步骤S3,构造训练集上的目标函数;其包括以下步骤:步骤S31,计算文本的局部特征的平均值,根据平均值和文本的局部特征相乘得到权重,其中表示第个文本的权重,用 ;表示文本的全局特征;步骤S32,采用了一个视觉上下文编码模块挖掘图像的局部特征之间的关系,首先通过卷积核为1步长为1的一维卷积运算,将输入的图像的初始局部特征转化为,表示经过卷积运算转换之后的特征张量,计算亲和矩阵,表示一个图像中的区域的个数,然后通过矩阵乘法计算加权和以此实现特征张量的重构,再通过操作将重构后的特征经过线性转换与图像的初始局部特征进行逐元素相加得到最终的输出张量,最后用表示带有上下文信息的图像的局部特征,表示一个图像中的区域的个数;步骤S33,计算图像文本的全局相似度;首先,计算图像的全局特征与文本的全局特征之间的余弦相似度,然后将其归一化为,利用注意力机制对图像的全局特征和文本的全局特征进行处理,得到注意力权重: ,是温度参数;然后利用权重矩阵来重建图像的全局特征,用 ;表示,最后使用重构后的图像全局特征和文本局部特征计算全局相似度: ;其中,和分别表示元素及的平方和L2范数;步骤S34,计算图像文本的局部相似度;首先,计算图像的局部特征和文本的局部特征之间的余弦相似度,然后将其归一化为,利用注意力机制对图像和文本中的局部特征进行处理: ; 是温度参数;得到注意力权重之后利用权重矩阵来重建图像的局部特征: ;最后使用重构后的图像局部特征和文本局部特征计算局部相似度: ;其中,和分别表示元素及的平方和L2范数;步骤S35,利用一个拼接操作把全局相似度和局部相似度进行融合,得到融合的图像文本相似度向量,然后利用一个全连接神经网络将融合的图像文本相似度向量映射为图像和文本的最终相似度;步骤S36,最后采用双向排名损失,给定一个匹配的图像文本对以及最难匹配的图像和最难匹配的文本,定义的损失函数如下: ;其中,是边界参数,是相似度;表示给定匹配的图像文本对的相似度,表示一个图像与最难匹配的文本的相似度,表示一个文本与最难匹配的图像的相似度;步骤S4,进行图文匹配,用召回率指标确定匹配精度。

全文数据:

权利要求:

百度查询: 鲁东大学 一种融合局部和全局语义的图像文本匹配算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。