买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了基于模态分歧差异融合的多光谱图像语义分割方法。本发明方法首先使用双流特征提取器获得RGB和Thermal图像特征;接着构建考虑模态分歧的四层差异融合模块,对语义分歧区域和语义一致区域进行差异化模态融合;再构建前景分割头获得前景掩膜,通过动态全连接解码器和语义分割头获得预测掩膜。本发明方法通过差异化融合建立语义一致和语义分歧区域的模态交互关系,刻画了高层与低层特征的语义关联,既能充分挖掘模态互补信息、降低模型计算量,又能准确定位细小物体和轮廓边缘,从而提升多光谱语义分割方法的性能。本方法能解决模型对于小物体和边界捕捉能力弱的问题,可应用于影视创作、服务机器人、智能巡检等实际场景。
主权项:1.基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,包括以下步骤:步骤1构建多光谱图像数据集合,所述多光谱图像数据集合中的图像数据包括:RGB模态图像和Thermal模态图像;利用4个级联的转换器网络构建得到一个特征编码器,使用2个特征编码器分别提取RGB模态图像和Thermal模态图像的特征表示;将提取RGB模态图像的特征编码器记为R,将提取Thermal模态图像的特征编码器记为T;组成R的4个级联的转换器网络,按顺序依次记为R1、R2、R3、R4;组成T的4个级联的转换器网络,按顺序依次记为T1、T2、T3、T4;2个所述特征编码器组成1个双流特征编码器;步骤2构建考虑模态分歧的差异融合模块,所述差异融合模块由4个差异融合子模块组成;每个差异融合子模块由语义分歧检测子模块、分歧协调子模块、语义增强子模块、通道混合子模块组成;所述4个差异融合子模块分别为差异融合子模块一、差异融合子模块二、差异融合子模块三、差异融合子模块四;RGB模态图像依次经过R1、R2、R3、R4处理后得到的特征,与Thermal模态图像依次经过T1、T2、T3、T4处理后得到的特征,共同输入至所述差异融合子模块四,得到第四层差异融合特征步骤3构建前景分割头,所述前景分割头由两层全连接层和上采样模块组成,所述前景分割头的输入为输出为前景掩膜,记为M;步骤4将RGB模态图像经过R1处理后得到的特征与Thermal模态图像经过T1处理后得到的特征输入差异融合子模块一,并将M输入语义分歧检测子模块,得到第一层差异融合特征 经过R2处理后得到的特征与经过T2处理后得到的特征输入差异融合子模块二,并将M输入语义分歧检测子模块,得到第二层差异融合特征 经过R3处理后得到的特征与经过T3处理后得到的特征输入差异融合子模块三,并将M输入语义分歧检测子模块,得到第三层差异融合特征步骤5构建全连接解码器和全连接语义分割头,得到由双流特征编码器、差异融合模块、前景分割头、全连接解码器和语义分割头组成的多光谱语义分割模型;所述全连接解码器的输入为将所述全连接解码器的输出,直接输入所述全连接语义分割头,得到预测掩膜;基于预测掩膜对多光谱图像进行分割;步骤6基于交叉熵损失构建损失函数,利用随机梯度下降法优化多光谱语义分割模型,直至模型收敛;所述步骤1还包括对所述数据集做预处理,所述数据集中的图像数据包括RGB模态图像和Thermal模态图像与其类别语义标记,类别语义标记由每个像素的语义类别索引组成;将所有除背景类外的语义类别索引作为前景区域,得到前景标记;步骤1中,所述构建多光谱图像数据集合,包括:1-1对多光谱RGB-T图像沿通道拆分为RGB图像和Thermal图像等两种模态,其中,4为RGB-T通道数;将Thermal图像沿通道复制三份以适应特征提取器,得到和其中W和H分别为图像的宽和高,3为RGB通道数;1-2将语义区域转化为前景区域,具体地,将像素级语义标记张量转化为像素级前景标记张量即其中Y中元素取值范围为{1,2,..,K},K为语义类别数,yu,v表示在坐标u,v处的像素点标记,下标u,v分别表示特征图高和宽的坐标;步骤1中,所述利用4个级联的转换器网络构建得到一个特征编码器,使用2个特征编码器分别提取RGB模态图像和Thermal模态图像的特征表示,包括:1-3使用四个混合转换器MIT构建所述特征编码器,分别提取两种模态图像的特征表示,即与其中i表示特征提取器的第i层,其中为RGB通道的特征图,为Thermal通道的特征图,R为RGB的缩写,T为Thermal的缩写,C为特征通道数,C2=2C1,C3=4C1,C3=8C1,C4=16C1;所述步骤2中,所述语义分歧检测子模块、分歧协调子模块、语义增强子模块、通道混合子模块的构建,以及所述得到的过程,包括以下步骤:2-1构建语义分歧检测子模块,该模块将步骤1获得的两种模态的特征表示划分为语义分歧区域和语义一致区域,分别从特征差异和邻域差异对语义分歧进行度量;对于所述差异融合模块的第四层,即差异融合子模块四,输入给定步骤1-3中特征图特征图与与其特征图上像素点特征记为pR=FR[u][v]∈R1×C与pT=FT[u][v]∈R1×C,及其对应半径为r的邻域特征图记为与其中AT为Thermal通道的邻域特征图,AR为RGB通道的邻域特征图;利用像素点特征PR与PT间的余弦相似度计算特征差异得分,即: 其中表示特征差异得分,||·||2表示特征L2范数;利用邻域特征图AT与AR间L2范数计算邻域差异得分,即: 其中表示邻域差异得分,AR[n]表示RGB邻域特征图中的第n个特征,AT[n]表示Thermal邻域特征图中的第n个特征;计算特征差异和邻域差异性得分逐个计算每个位置的特征差异和邻域差异得分并按对应位置填入矩阵得到分歧矩阵其代表对应位置像素的语义分歧程度,根据分歧矩阵WDiv筛选差异得分较大的前δ个元素值作为分歧区域,并记录下其对应位置横纵坐标组成分歧区域位置矩阵记为2-2构建语义增强子模块对语义一致区域特征进行融合,语义增强子模块将完整特征图和作为输入,具体由两条并行支路组成,分别为RGB语义增强支路和Thermal语义增强支路,每个支路都由通道扩展模块,通道语义增强模块,空间语义增强模块以及通道恢复模块组成;首先使用通道扩展模块将特征通道数扩张至原有通道数的2倍,通道扩展模块由一个1×1卷积层与7×7深度可分离卷积层组成,得到通道扩张后的RGB模态特征图和Thermal模态特征图与再使用通道语义增强模块对模态语义相互增强,语义增强模块沿着空间维度进行最大池化操作和平均池化操作,通过全连接层相加融合后经Sigmoid函数得到通道注意力权重与随后,将通道注意力权重和与通道扩张后的特征和相乘,同时添加残差连接以保留通道扩张后的特征信息,即: 其中表示哈达玛积hadamardproduct,与分别表示经通道语义增强后所得RGB模态特征图和Thermal模态特征图;使用空间语义增强模块增强空间特征,首先沿着通道维度使用最大池化和平均池化以及1×1卷积,将得到的特征沿通道维度拼接,并使用1×1卷积分别得到RGB通道和Thermal通道的空间注意力权重与将空间注意力权重和与通道语义增强后特征图和相乘,在空间维度上进行语义相互增强;为保留通道语义增强后的特征信息,通过残差连接将其与空间语义增强后的特征图进行融合,即: 其中与分别表示通道语义增强和特征语义增强后的RGB模态特征图和Thermal模态特征图;最后,通道恢复模块使用1×1卷积对特征通道降维,得到语义融合特征图与2-3构建分歧协调子模块以融合语义分歧区域特征,首先对步骤2-1所得分歧区域Posdiv对应位置特征进行采样,得到RGB模态分歧特征集合和Thermal模态分歧特征集合 其中PR表示RGB模态的特征点,PT表示Thermal模态的特征点,对半径r的特征区域特征采样,得到的分歧特征邻域集合记为: 其中AR表示RGB模态的特征邻域,AT表示Thermal模态的特征点;对集合与内所有元素和沿着通道维度拼接,得到中间特征并构建中间特征集合使用多头注意力机制融合特征:对于每个中间特征使用点积注意力机制计算,得到每个注意力头的输出: 其中,h∈{1,2,...,head},SoftMax·为归一化指数函数,为可学习的仿射变换矩阵,head为注意力头数;其中,head=6;为聚合多头注意力的输出,将每个注意力头输出和进行分别拼接,即: 其中MH·为多头注意力,Concat·表示拼接操作,代表RGB通道对应注意力头的输出,代表Thermal通道对应注意力头的输出,与分别为RGB模态和Thermal模态可学习的仿射变换矩阵,乘以仿射变换矩阵的目的是降低通道维度并混合注意力头的输出;在分歧协调子模块中添加层归一化和残差连接,最后通过前馈神经网络建立通道间的关系,得到分歧协调特征集合,即: 其中,FFN·代表前馈神经网络Feed-ForwardNetwork,由两层全连接层和一层激活层组成,LN·表示层归一化LayerNormalization,与为分歧协调特征集合;2-4构建通道混合子模块对特征进行融合,该模块由两个融合支路组成,通道注意力支路以及空间通道混合支路;首先利用步骤2-3分歧协调模块的输出对步骤2-2语义增强模块的输出做特征替换操作,即: 其中,与分别属于集合与u,v∈Posdiv;经替换后将两种模态和特征沿通道维度拼接,经过由多层大核卷积层和1×1卷积组成的空间通道混合支路,分别在空间和通道维度上进行融合,其中多层大核卷积由2层卷积层大小为7×7的深度可分离卷积和层次归一化层组成;为更好的建立特征通道间的关系,额外添加通道注意力支路,该支路由通道注意力模块和1×1卷积组成;最后,将通道注意力支路输出和空间通道混合支路输出通过数值相加进行混合,得到第四层通道混合特征图
全文数据:
权利要求:
百度查询: 杭州电子科技大学 基于模态分歧差异融合的多光谱图像语义分割方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。