买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京工业大学
摘要:一种利用双分支边界混合网络指导城市场景语义分割的方法,步骤包括:步骤一、为RGB图像构造高效的主干分支网络确保其在网络更轻量情况下保持提取完整的语义信息的能力;步骤二、为热红外图像构建边界信息提取分支,通过边界信息补充RGB图像在提取语义信息时的细节信息损耗;步骤三、构建双分支混合模块来融合主干分支和边界分支的信息,并通过注意力机制对混合的特征进行微调来保证融合特征的信息高可用性;步骤四、设计更高效的混合损失函数针对整体网络架构的不同分支进行约束,并在总损失函数中融合了困难样本挖掘的思想来更有效的分割出以往工作中难以实现的困难场景。
主权项:1.一种利用双分支边界混合网络指导城市场景语义分割的方法,该方法采用深度学习技术实现对城市场景的精确识别和分割。我们将整个构造的深度神经网络称之为DBFNet,此网络拥有更快的推理速度与更精确的场景分割能力,其特征在于:包括以下步骤:步骤一、为RGB图像构造高效的主干分支网络确保其更轻量参数量更少,推理速度更快的同时保持提取完整语义信息的能力;1.1由于构建主干分支网络的目的是提取丰富的语义信息,所以主干分支网络输入的是RGB彩色图像,我们对其进行较复杂的数据增强措施提高模型的泛化能力,包括对比度与亮度随机调整、色彩变换、高斯噪声和随机翻转与平移在这种增强手段下,相应的热红外图像也要进行对应的变换等等。1.2考虑到设计的神经网络有轻量级的要求,我们对于主干网络的设计便排除了对于底层实现不友好的带有空洞卷积的Resnet网络;此外,虽然Encoder-Decoder的U型结构保证了模型的精确度,但是却引入了额外的计算量,我们对于主干网络的设计也不选择它。我们设计了一种带有回溯能力的密集型连接网络作为我们的主干分支网络,大致的设计模式参考了Resnet架构,我们对于每一个Layer不在进行单独的残差连接,而是密集型连接每经历一个卷积层都将当前结果保存下来,最后按照通道维度拼接到当前Layer的输出中,密集连接能保证低级特征纹理、线条等特征完整的传递下来。同时为了兼顾模型推理速度,我们在主干分支中使用了适当的深度可分离卷积来替换掉普通卷积层。1.3主干网络的回溯能力是为了利用更深层的特征来方向指导最后要与边界分支进行融合的特征。一个普遍的理解就是传播越远的特征保持更抽象的信息和更完整的语义信息,但是会丢失更多的细节信息。因此我们在主干分支要与细节分支融合的时候并不会停止计算,而是会额外计算一个更深的层,然后利用这个更深层的信息来反哺当前层的特征,这样仅仅增加了一点点计算量,便获取了语义信息更完整的特征图。我们为这个反哺过程也设计了一个注意力微调模块,即利用更深层次的语义信息对于当前层的语义特征进行调整,确保了每一个像素点位置都被施加了不同程度的注意力,通过注意力的大小进行逐像素的调整,这样确保了要与边界分支融合的语义特征的高可用性。步骤二、为热红外图像构建边界信息提取分支,通过边界信息补充RGB图像在提取语义信息时的细节信息损耗;2.1由于构建边界分支网络的目的是提取丰富的边界信息来补充主分支的语义信息,所以对于边界分支网络输入的热红外图像,我们对其进行相对简单的数据增强,包括高斯噪声和随机翻转与平移这种增强手段要与对应的RGB图像的增强同步等等。2.2边界分支保留完整的边界信息与语义信息进行融合,以此保证最后进行预测的特征在拥有强大语义信息的同时也关注了细微的边界特征,这可以增强模型对于微小目标的分割能力微小目标通常具有较低的像素数量,因此在图像中可能不太显著,容易被忽略或误分类。通过引入对边界信息的关注,模型可以更好地区分微小目标与背景之间的边界,从而更准确地进行分割。2.3由于边界信息属于细节信息,他保留在较浅的网络中,所以我们设计的边界分支仅仅有三个卷积层和与之对应的归一化层和非线性激活层。我们对于卷积层的设计采用了倒金字塔结构,即第一层有着最高的维度数,后续层逐层递减,这样做的目的是首先提取到足够数量的细节特征,然后再逐步对特征进行压缩,去除我们不需要的部分细节特征,保留下可用性强的边界细节特征。实验证明我们这样的设计模式对于整体模型的分割精确度效果比起正金字塔结构性能更好。步骤三、构建双分支混合模块来融合主干分支和边界分支的信息,并通过注意力机制对混合的特征进行微调来保证融合特征的信息高可用性;3.1我们通过将主分支特征和边界分支特征按照通道维度进行拼接,然后利用BatchNoraml层对输入的特征进行归一化,这个过程可以帮助不同特征的数据分布更加接近,有助于模型更好地学习特征之间的关系;3.2对融合的特征采用注意力机制为每一个像素位置施加不同的注意力权重,这样可以帮助模型学习对于融合过程中比较重要的特征,最后将根据注意力权重调整过的融合特征和原始的融合特征相加,来保证融合特征的信息高可用性;步骤四、设计更高效的混合损失函数针对整体网络架构的不同分支进行约束,并在总损失函数中融合了困难样本挖掘的思想来更有效的分割出以往工作中难以实现的困难场景:4.1主干分支提取语义信息用于最后的分割,在整个模型的推理过程中,这一分支对于整体的贡献度无疑是最大的,因此需要设置一个更合理的损失函数来调整这一个分支的训练。考虑到类别不平衡问题,我们首先对与主分支施加了Dice损失函数,他的计算方式下Dice所示;后又考虑到了困难样本的问题,即小目标的分割效果差,我们又引入了困难样本挖掘的思想来设计一个损失函数,其计算方式如下OHEM所示; 其中ypred表示预测值,ytrue表示真值标签,Dice损失便可以理解为衡量两个样本集合之间相似度的统计量。OHEM中的参数λ是一个超参数,x是像素的索引,整个损失代表了只有我们的预测值小于λ,就把该像素点的预测损失加入到整体损失中,这可以实现困难样本的挖掘。4.2边界分支负责提取浅层边界信息,用于弥补语义信息中边界细节信息的缺失,首先利用拉普拉斯算子根据语义标签得到边界标签,随后利用二元交叉熵损失函数可以得到边界分支的预测结果和真实边界标签的损失值,最终进行边界分支的优化。我们对于边界损失定义如下: 其中,其中ypred表示边界的预测值,ytrue表示边界的真值标签,x表示像素点的索引值。4.3因为我们的目的是让边界分支补充主分支中缺少的细节信息,所以我们设计总损失的主分支对于模型优化的贡献较高,边界分支只是起到补充作用。同时困难样本挖掘的损失也是在主分支的基础上增加的关注困难目标的补充,所以对于整体的损失占比重也相对较小,因此总损失函数设计如下:loss=0.6Dice+0.2OHEM+0.2boundloss。
全文数据:
权利要求:
百度查询: 南京工业大学 利用双分支边界混合网络指导城市场景语义分割的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。