首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种跨模态弱监督的图像分割方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于人工智能、深度学习、计算机视觉和图像分割内容技术领域,公开了一种跨模态弱监督的图像分割方法。本发明首先使用分类损失函数确定前景目标的大致区域,然后使用矫正损失函数对目标区域进行矫正。矫正方法可以扩大相关的前景区域,将更多的前景区域纳入考虑,并降低背景区域的噪声影响。为了减少文本和图像特征之间的差异,本发明还提出了一个双边提词注意模块来更新两个分支的特征,通过直接将两个分支的特征相乘来获得对应的伪标签。此外,针对具有多个文本描述的相同目标区域,本发明还提出了基于正样本的响应图选择策略,以选择最匹配的响应图来减少信息冗余。

主权项:1.一种跨模态弱监督的图像分割方法,其特征在于,包括步骤如下:步骤1提取图像特征和文本特征;给定一个输入图像和文本表达式查询通过图像编码器Encv和文本编码器Enct提取出初始视觉特征和初始文本特征其中Hv=Hs和Cv和Ct分别表示视觉特征和文本特征的通道数,s是下采样的倍数,T表示单词数量;所述文本表达式查询分为正确的查询表达式和错误的查询表达式Qn;输入图像作为锚点,正确的查询表达式作为正样本,N个错误的查询表达式作为负样本;通过投影层将V和L转换到统一的隐藏维度Cd,得到投影后的视觉特征和投影后的文本特征再通过L2通道归一化规范化投影层的输出,得到视觉特征V2和文本特征L2;步骤2通过双边提词注意模块进行特征增强更新;给定输入视觉特征和文本特征通过以下公式计算两个注意力图: 其中表示文本特征到视觉特征的关联度,表示视觉特征到文本特征的关联度,和是视觉特征和文本特征的可学习参数,表示矩阵乘法;所述双边提词注意模块表示为: 其中Re·表示形状变换函数,L′为增强后的视觉特征,其形状为V′为增强后的文本特征,其形状为采用双边提词模块来更新视觉特征和文本特征,具体如下: 表示更新后的视觉特征,表示更新后的文本特征,α和β表示对应的系数;步骤3生成响应图;对于更新后的视觉特征先对其进行重组,得到重组后的视觉特征对齐重组后的视觉特征和更新后的文本特征,得到像素i与文本j之间的响应: 其中,v表示通道索引,τ表示一个可学习的温度参数,用来约束Ri,j的范围;步骤4通过分类损失函数进行监督对于正样本Qp和负样本Qn,分别计算图像I对正样本Qp和负样本Qn的响应映射;将Rp和Rn组合起来得到整个样本的响应,并为每个文本表达式查询Qi计算图像级分数yj,如下所示: 其中表示一个正则化项,用来对正负样本进行平衡;yj的范围是0-1,它的值越大,当前待查询文本Qj与输入图像匹配度越高;所述分类损失函数用于监督整个分类过程,具体为: 其中是视觉特征生成的监督信号,1表示正确查询,0表示错误查询;提出一种校准损失函数来提高正响应图Rp的定位和分割准确度;首先将输入图像I与Rp相乘,以获取目标对象的位置,并将其作为锚点,再使用正确的查询表达式Qp作为正样本,从同一图像中描述不同对象的查询中随机采样K个作为负样本整个过程表示为: 其中S·,·,·是一种相似度函数,用于测量目标对象和查询之间的匹配度: up·是上采样函数,是余弦相似度计算函数;步骤5基于正样本的响应图选择策略获取质量最高的响应图;首先为M个正样本中的每个计算文本到图像的响应图再使用上述S·,·,·计算相似度,将当前相应图与所有正样本的相似度得分相加,反应准确性: 选择累积得分最大的响应图作为目标对象的响应图;同时使用R[88]来进一步提升响应图的精度,在对其进行阈值处理后,获得对应的伪标签,用于训练指称图像分割网络;步骤6使用伪标签训练指称图像分割网络进行分割图像;所述指称图像分割网络包括图像编码器、文本编码器、多模态特征融合模块和解码器;将图像和文本输入编码器得到对应的特征;将图像编码器和文本编码器生成的后三个层级的视觉特征与文本特征使用多模态特征融合模块来进行融合,得到的跨模态特征,再输入对应的解码器,得到最后的分割结果;所述多模态特征融合模块基于注意力机制,对于输入的视觉特征和文本特征,先使用线性层将其投影到一个维度,得到和其中T表示输入文本的单词个数;之后将视觉特征当作Qv,文本特征当作Vl和Kl,通过以下计算得到多模态特征Ai;Qv=WqVi,Kl=WkL,Vl=WvL 之后对其进行转置,使其与Vi具有相同的形状后进行点乘:Mi=Vi⊙Ai最终的多模态特征Mi在经过形状重组后,再输入一个线性层,得到融合输出,并采用伪标签来监督,损失函数选取标准的二分类交叉熵函数,如下: Pij越接近伪标签yij时,损失函数的值越小。

全文数据:

权利要求:

百度查询: 大连理工大学 一种跨模态弱监督的图像分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术