买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京理工大学
摘要:本发明公开了一种基于多层次表征融合的零样本红外图像着色方法及系统,该方法包括:利用全局图像着色网络对整体红外图像着色;利用预训练实例分割模型,从红外图像中提取实例级特征,并生成相应的实例分割伪标签,将其送至实例着色网络,实现端到端的实例着色;将实例着色结果和整体着色结果输入至全局重着色模块中进行耦合重构,得到优化后的红外着色结果。本发明仅使用可见光图像进行训练,实现了跨模态零样本学习,并消除了对红外数据集的依赖;本发明能够进一步优化红外着色算法的性能,并从包含多个对象的复杂场景中提取符合实例特性的颜色分布。
主权项:1.一种基于多层次表征融合的零样本红外图像着色方法,其特征在于,包括:利用全局图像着色网络对整体红外图像着色,包括图像预处理、频域处理、掩码图像重建和推理图像后处理四部分;在网络训练阶段,预处理过程是对可见光图像进行灰度化处理,通过去除输入图像中的颜色信息来增强网络的色彩重建能力;图像预处理完成后,将图像输入至频域处理模块;在频域处理模块中,首先对一个给定输入的单通道图像进行二维离散傅里叶变换,如公式(1)所示: ;其中,和分别表示图像的高度和宽度,表示空间域上的坐标,表示频域上的坐标;是空间域中的二维离散信号,是频域上坐标处的复数频率值;表示欧拉数,表示虚部;公式的作用是遍历图像中每个像素的函数值总和,表示频域上的特定空间频率取决于图像中的所有像素;通过频域掩码发生器默认生成一个相同分辨率的圆形掩码,其值由与超参数掩模半径相关的阈值函数确定,如公式(2)所示: ;其中,表示图像的中心坐标,表示图像中任意坐标点与图像中心坐标之间的欧氏距离,当该坐标距离小于等于时,该坐标处的掩码数值为0,否则为1;通过该掩码实现图像的高通滤波,去除图像中的低频分量,以突出图像中的边缘纹理细节,并对处理后的频域图像进行二维离散逆傅里叶变换,如公式(3)所示: ;结合上述步骤,得到频域处理模块的输出图像,如公式(4)所示: ;其中表示矩阵的哈德曼内积,和分别表示傅里叶变换和傅里叶逆变换;通过调整掩码的掩码半径,控制图像中频域信息的保留程度;对频域处理模块的输出结果进行掩码图像重建;重建损失函数由三部分组成,即在空间域上监督的MSE损失函数、在频域上监督的频域重建损失函数和色度重建损失函数;MSE损失函数为重建损失函数,如公式(5)所示: ;其中,和分别表示图像的高度和宽度,和分别表示坐标位置处的可见光图像和网络重建图像的像素值;在频域重建损失函数中,首先根据二维离散傅里叶变换的定义,得到图像信号的幅度定义如公式(6)所示; ;其中,和分别表示的实部和虚部;对于两个输入图像信号和,所对应的频域空间中光谱坐标位置之间的频率距离定义如公式(7)所示: ;其中,表示控制距离函数锐度的指数;结合公式(6)和(7),得到频域重建损失函数如公式(8)所示;在频域中逐个像素计算输入图像和重建图像之间的频率距离; ;将图像转换为YUV格式,通过在UV通道上计算输入图像和重建图像之间的均方误差得到色度重建损失函数,如公式(9)所示; ;其中和分别表示图像在UV通道上坐标位置的像素值;最终的损失函数如公式(10)所示: ;其中λ是频域重建损失函数的权重系数;在推理阶段,针对长波红外图像采取灰度反转操作,假定源图像各个像素的灰度值为,则灰度反转后的值为,翻转前后的灰度值均在范围内;将输入图像的高频分量与重建图像的低频分量集成在一起,从而保留原始输入图像的边缘细节,并最终生成更高质量的输出;在频域处理模块中,对输入图像使用频域掩码;对于推理图像后处理,使用相同的频域掩码作用于掩码图像建模模块的输出,并得到最终的全局着色结果,如公式(11)所示: ;其中,掩码图像建模模块的输入图像和输出图像所对应的频域掩码是互补的,是方程(4)中同一矩阵哈德曼内积;利用预训练实例分割模型,从红外图像中提取实例级特征,并生成相应的实例分割伪标签,将其送至实例着色网络,实现端到端的实例着色;具体为:实例着色网络包括实例生成器和多尺度判别器;实例生成器用于将语义级的对象特征映射转换为逼真的实例目标图像,将生成器称为实例生成器网络,实例生成器网络以512×512的分辨率输入;实例生成器网络由三个部分组成:一个卷积前端,用于对输入的图像张量进行三次下采样,每次下采样会将特征图的空间尺寸减半,同时通道数增加,以捕获不同尺度的特征;一组残差块,每个残差块包含卷积操作、归一化操作和激活函数;一个转置卷积后端,对残差块输出的特征张量进行三次上采样,增加特征图的空间尺寸,同时减小特征图的通道数;多尺度判别器由三个相同网络结构的组成,各个子网络、、作用在不同的图像尺度下;实例着色网络的训练集是以一组图像对的形式输入网络,其中表示语义级对象特征映射,表示对应的真实目标图像,表示计算所有图像对的期望值;实例着色网络作为条件GAN网络,通过以下博弈对给定输入的语义级对象特征映射与真实目标图像的条件分布进行建模: ; ;其中,的展开式如公式(13)所示,表示多尺度判别器中第层判别器判断真实图像是否真实的概率,是真实图像,表示多尺度判别器中第层判别器判断实例生成器生成的图像是否真实的概率; ;通过结合基于多尺度判别器的特征匹配损失函数,优化公式(13)中的条件GAN损失,如公式(14)所示;在该损失函数中,只作为特征提取器使用,并不参与损失函数的优化;表示从多尺度判别器的第层判别器中获得的第层的输出,网络首先提取真实图像和原始图像在每一层的特征和,然后计算它们之间的平均绝对值误差,最后除以,表示第层的特征图中的元素数量;在所有到的层上都进行相同的计算并求和; ;定义一个使用VGG19网络的感知损失函数,如公式(15)所示;将给定的生成图像和对应的真实图像输入VGG19网络,比较它们在不同网络层上的特征映射结果,并计算平均绝对值误差,最后将各个层的结果加权求和;数值越小,表示生成图像和真实图像之间的差异越小;在公式(15)中,表示对应层的权重值,表示VGG19网络的第层;将上述公式加权求和,得到实例着色网络的总损失函数: ;其中,表示特征匹配损失函数和感知损失函数的加权系数;将实例着色结果和整体着色结果输入至全局重着色模块中进行耦合重构,得到优化后的红外着色结果,具体为:利用实例着色模块中分割的语义级标签作为空间域的像素索引,对实例着色模块的生成图像与全局着色网络的重建图像的对应区域进行实例提取,并将提取后的部分重新耦合,如公式(17)所示: ;其中,表示实例着色模块的生成图像,表示全局着色网络的重建图像,表示置换区域的掩码,表示目标区域耦合后的输出图像;将目标区域耦合后的图像再次输入全局图像着色网络,以获得更平滑的红外着色结果。
全文数据:
权利要求:
百度查询: 南京理工大学 基于多层次表征融合的零样本红外图像着色方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。