首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Transformer视觉上采样模块的图像语义分割方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种基于Transformer视觉上采样模块的图像语义分割方法。本发明在图像语义分割任务中引入基于视觉Transformer模块进行特征图的上采样模块,在上采样过程中融入原先保存的部分特征图信息作为上采样辅助信息。与原先传统上采样模块相比,避免了在未知信息中进行补0的操作同时也避免了反卷积等带来的棋盘效应。依赖于窗口化降采样的创新过程解决了深层特征图关注全局语义信息而丢失局部细节信息的尴尬,对于局部窗口的Transformer提取带来了更优秀的细节信息,同时也解决了算力不足带来的影响,为Transformer解决大尺度问题提供了可能,能够提高图像语义分割的性能。

主权项:1.一种基于Transformer视觉上采样模块的图像语义分割方法,其特征在于:将待语义分割的图像输入具有特征金字塔网络的语义分割模型中,且所述语义分割模型在上采样过程中以Transformer视觉上采样模块对浅层特征和深层特征进行上采样融合,最终由语义分割模型输出图像的语义分割结果;所述Transformer视觉上采样模块包括两组窗口降采样模块和特征编码模块,以及级联的第一Transformer模块、多个第二Transformer模块和窗口复原采样模块;两组窗口降采样模块和特征编码模块分别以浅层特征图和深层特征图作为输入,每个输入的特征图先进入窗口降采样模块中按照固定尺寸的划分窗口分割为不重合的窗口图像块,然后将划分得到的所有窗口图像块沿特征通道维度进行叠加形成降采样后的窗口集合,再将窗口集合输入线性分类器进行编码,并在线性分类器的编码结果基础上叠加相对位置编码记录窗口内部位置信息,从而得到每个输入的特征图对应的编码后特征向量;浅层特征图和深层特征图各自对应的编码后特征向量同时作为第一Transformer模块的输入,两个输入经过层归一化后,以深层特征图对应的编码后特征向量作为多头注意力机制的Query和Value,以浅层特征图对应的编码后特征向量作为Key进行注意力融合得到注意力图,注意力图与深层特征图对应的编码后特征向量的相乘结果经过残差连接后,再经过层归一化、线性分类器和残差连接,最终输出的特征作为后方级联的第一个第二Transformer模块的输入;每个第二Transformer模块,将输入的单个特征依次经过层归一化、多头注意力机制、残差连接、层归一化、线性分类器和残差连接后,形成传递至后方的输出特征;所述窗口复原采样模块以最后一个第二Transformer模块的输出特征作为输入,按照与所述窗口降采样模块中降采样过程的逆向过程进行复原采样,得到当前Transformer视觉上采样模块最终输出的上采样结果,且该上采样结果与输入当前Transformer视觉上采样模块的浅层特征图的尺寸维度完全相同。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。