买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:基于文本掩码监督图文特征融合的视觉定位方法,属于计算机视觉技术和图像处理技术领域,本发明使用ViT和BERT作为视觉编码器和文本编码器。首先,对输入文本进行两次掩码处理得到两个掩码的文本,掩码得到的扩充文本能够协同全文本一起利用视觉语言对齐模块生成更精细的掩码监督热图。其次,设计文本增强模块,使用带有短语注意力的Bi‑GRU对文本中不同单词进行加权和抑制,使模型更关注与定位目标相关的文本信息,同时降低与定位目标不相关的背景信息的影响。最后,跨模态解码器接收增强的文本特征和掩码监督热图一起在原始图像上做迭代回归预测,有效解决现有视觉定位方法由于无法准确捕捉目标对象细节特征而出现定位歧义的问题。
主权项:1.基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,包括以下步骤:步骤1:构建图像-文本对I,T的数据集;所述图像-文本对I,T由图像和用于描述图像中图像内容的文本构成;步骤2:构造文本掩码监督图文特征融合的视觉定位模型;所述文本掩码监督图文特征融合的视觉定位模型包括视觉编码器、文本编码器、视觉语言对齐模块、文本增强模块和跨模态解码器;所述视觉编码器用于通过ViT提取图像特征;所述文本编码器用于通过BERT提取文本特征;所述视觉语言对齐模块用于根据文本编码器提取出的文本特征和视觉编码器提取出的图像特征生成掩码监督热图,视觉语言对齐模块包含两个分支,第一个分支包括多头自注意力层、多头跨模态注意力层和卷积层,第二分支包括两个多头注意力层,且第二个分支以第一个分支的输出作为输入;所述文本增强模块内置带有短语注意力的双向门控循环单元,文本增强模块用于对输入的全文本进行关键信息增强;所述跨模态解码器中含有两个多头注意力层和两个FFN层,跨模态解码器用于接收增强后的文本特征和掩码监督热图,一起在原始图像上做迭代回归预测以实现最终的目标定位;步骤3:将图像-文本对I,T作为文本掩码监督图文特征融合的视觉定位模型输入,并在输入之前按照设定好的掩码规则对输入文本进行两次掩码操作,形成两个掩码文本和最终得到一个未经掩码的全文本T和两个掩码文本和掩码处理之后,文本编码器使用BERT提取文本特征,得到一个未经掩码的全文本特征Ft以及两个掩码文本特征和视觉编码器使用ViT提取图像I的图像特征图Fi;步骤4:将三个文本特征Ft、和以及图像特征图Fi送入视觉语言对齐模块,每个文本特征分别与图像特征图Fi拼接建立输入的图文特征对,得到一个全文本图文特征对Ft,Fi以及两个掩码文本图文特征对和视觉语言对齐模块中的第一个分支将其接收到的图文特征对,输出文本中涉及的所有目标对象的监督热图FO,第二个分支将第一个分支的输出分别用作查询向量Q和值向量V,与图像特征图Fi计算注意力权重,生成掩码监督热图FM;步骤5:单独提取步骤3中未经掩码的全文本特征Ft,将其送入文本增强模块,增强关键文本,抑制干扰文本,最终得到增强后的文本特征步骤6:将图像特征图Fi、掩码监督热图FM和增强后的文本特征一起送入到跨模态解码器,执行迭代回归预测以实现最终的目标定位,具体,跨模态解码器中第一个多头注意力层接收初始可学习的参量和增强后的文本特征利用注意力计算将初始可学习的参量添加在文本信息中,然后用一个中间参量t1存储;第二个多头注意力层接收中间参量t1、掩码监督热图FM和图像特征图Fi,计算三者的相关性得分,得到文本定位目标对象的视觉特征t2;视觉特征t2经过第一个FFN层,利用其内部带有ReLU激活函数的MLP进行特征更新,预先设定的一个基准IOU值,与第一个FFN层输出的特征置信度Ti进行比对,当Ti<IOU时,用新的可学习的参量存储当前的视觉特征t2,替换初始可学习的参量执行下一轮的迭代预测;当Ti≥IOU时,将更新后的视觉特征输入到第二个FFN层中增强特征表达,得到含定位中心点坐标xi,yi和长宽wi,hi的坐标信息,最后,依据坐标信息绘制定位框,实现文本到图像的视觉定位;至此,基于文本掩码监督图文特征融合的视觉定位方法完成。
全文数据:
权利要求:
百度查询: 长春理工大学 基于文本掩码监督图文特征融合的视觉定位方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。