买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明公开了一种基于文本调制扩散模型的强泛化全色锐化方法,利用文本提示卫星数据相关的信息,调制扩散模型的参数,并使用3D卷积神经网络构建模型。该模型由正向扩散过程和反向去噪过程组成,其中正向扩散过程通过马尔科夫链方式逐步给目标图像添加高斯噪声,反向去噪过程从标准高斯分布的噪声数据逐步生成目标高分辨率多光谱图像。本发明设计了一个文本调制的3D卷积神经网络,文本提示通过CLIP的文本编码器生成文本编码,与3D卷积神经网络的卷积核在通道维度相乘,为不同的卫星数据生成适配的网络参数,处理多个卫星数据集。本发明能够利用多个遥感数据集,从而在增强空间细节信息的同时减少光谱失真,并极大增强了模型在未知数据集的泛化能力。
主权项:1.一种基于文本调制扩散模型的强泛化全色锐化方法,其特征在于,包括如下步骤:步骤1:数据集准备;对成对、配准的遥感多光谱MS图像和全色图像PAN按照从左到右、从上到下的顺序截取图像块,并将这些图像块分为训练集、验证集和测试集;先对训练集、验证集和测试集进行归一化处理;再对训练集、验证集和测试集中的图像块按照Wald协议进行处理,然后将处理过的图像块作为模型的输入;原始MS图像块作为参考图像;步骤2:正向加噪过程;设置加噪的总步长为T,对任意时间步t~{1,...,T},通过公式1和2计算参考图像即高分辨率多光谱图像X0加噪到t时刻的数据分布: 其中αi是预定义的固定参数,取值范围为0,1;∈t为服从标准高斯分布的噪声信息;X0为参考图像;Xt表示加噪至t时刻的参考图像;I表示一个值全为1的矩阵;表示高斯分布;qXt|X0表示参考图像X0加噪至t时刻的数据分布;步骤3:文本调制3D卷积神经网络构建;所述文本调制3D卷积神经网络接收的输入信息包括时间步t、加噪图像Rt、文本提示L、全色图像P与多光谱图像M,网络的预测目标为没有噪声干扰的高分辨率多光谱图像X0,即fθXt,L,t,P,M→X0;所述文本调制3D卷积神经网络包括两个分支网络,分别为条件编码器分支与U型网络分支,条件编码器分支提取MS图像块和PAN图像块的信息,U型网络分支提取加噪图像Xt的信息并结合条件编码器输出的多尺度特征,获得目标高分辨率多光谱图像;所述条件编码器分支与U型网络分支均采用调制3D残差模块作为基础模块,该模块接收时间步t的编码Et、文本提示L的编码El和上一层的特征Fj-1,输出特征Fj;步骤3-1:构建时间步编码模块;所述时间步编码模块络依赖时间步t,输入的时间步t~{1,...,T}使用正余弦编码算法转换为一维向量,随后通过Linear线性变化层和LReLU激活函数顺序级联的结构;所述级联结构共级联三组Linear线性变化层与LReLU,输出处理后的一维时间编码Et;步骤3-2:构建文本编码模块;所述文本编码模块由预训练CLIP文本编码器、Linear线性变化层和LReLU激活函数级联的结构组成,模块输入文本提示L,输出一维文本编码El;所述文本提示L采用统一的模板,使用卫星的名称作为卫星物理信息的标识,具体模板为“ImagesofClassk”,其中Classk表示待处理的卫星名称,如当输入全色图像P与多光谱图像M来自QuickBird时,文本提示L为“ImagesofQuickBird”;所述预训练CLIP文本编码器采用Openai开源的CLIP-vit-large-patch14模型的文本编码器部分;文本提示L输入CLIP文本编码器后得到共77个维度768的文本编码,其中的CLS编码后输入Linear线性变化层和LReLU激活函数级联的结构;所述级联结构共包含三组,最终输出处理后的一维文本编码El;所述文本编码El将输入每一个调制3D残差模块以调制其输出;步骤3-3:构建调制3D残差模块;所述调制3D残差模块由3D卷积层、Linear线性变化层、LReLU激活函数和跳连接组成;输入信息包括时间编码Et,文本编码El与输入特征Fj-1,输出处理后的特征Fj;所述3D卷积层使用窗口尺寸为1×3×3,填充为1,步长为1;所述时间编码Et和文本编码El通过Linear线性变化层改变向量长度,保持与输入特征Fj-1的通道数量一致,时间编码Et与输入特征Fj-1相加后,通过LReLU、3D卷积层、LReLU、3D卷积层顺序级联的结构;文本编码El与第二个3D卷积层的权重在通道维度相乘,从而调制模块的运算结果;所述跳连接指调制3D残差模块的输出结果与输入特征Fj-1相加后输出最终结果Fj;步骤3-4:构建条件编码网络分支;所述条件编码网络分支由调制3D残差模块、LReLU激活函数和下采样层级联3组的结构组成;所述条件编码网络分支接收全色图像P与多光谱图像M作为条件信息;具体地,网络输入为PD-Mr↑,其中PD表示全色图像P在通道上复制到与多光谱图像M通道数量一致,Mr↑表示多光谱图像进行r倍上采样至空间分辨率与全色图像P一致,求差后得到条件输入;条件信息PD-Mr↑在输入编码器前需要reshape为B,1,C,H,W格式以便调制3D残差模块处理;所述下采样层使用窗口尺寸为1×3×3,填充为1,步长为2的3D卷积层;所述条件编码网络输出3组多尺度特征,特征形状分别为B,32,C,H2,W2、B,64,C,H4,W4、B,128,C,H8,W8;步骤3-5:构建U型网络分支;所述U型网络分支由调制3D残差模块、LReLU激活函数和下采样层或上采样层级联的结构组成;所述U型网络分支输入为加噪至t时刻的参考图像Xt和条件编码分支提取的3组多尺度特征,重建高分辨率多光谱图像X0;图像Xt在输入前reshape为B,1,C,H,W格式用于调制3D残差模块处理;图像Xt通过三组调制3D残差模块、LReLU激活函数和下采样层级联的编码器结构,再通过三组调制3D残差模块、LReLU激活函数和上采样层级联的解码器结构,解码器使用跳连接Concat相同分辨率的编码器特征与条件编码器特征,最后通过两个调制3D残差模块输出重建结果;步骤4:训练过程;所述文本调制扩散模型在多个遥感卫星数据集上联合训练,并采用步骤3-2描述的卫星特定文本提示;所述训练过程使用K个卫星数据集,记为D=D1∪...∪DK,其中Dk包含的训练数据记为Nk是第k个卫星数据集的全色-多光谱图像对的数量;所述文本调制扩散模型在联合数据集D中,顺序采样不同卫星数据集的batch联合训练,所使用的损失函数如下: 步骤5:反向去噪流程;所述文本调制扩散模型训练结束后,基于马尔科夫链过程,从标准正态分布中采样得到两个样本XT和z,使用下述公式4进行T步迭代,当t=0时迭代终止,最后从高斯噪声XT去噪得到全色图像P和多光谱图像M的融合结果: 其中
全文数据:
权利要求:
百度查询: 西北工业大学 一种基于文本调制扩散模型的强泛化全色锐化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。