买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津科技大学
摘要:本发明提供了一种基于软注意控制无分类器指导的快速双流去噪扩散模型及图像融合方法,属于图像处理技术领域。以深度学习框架为基础,利用卷积神经网络搭建了去噪概率扩散网络,提供了将期望的视觉概念融入到现有图像的图像融合网络模型及训练流程,解决了融合度差、图像融合效率低等问题。本发明将软注意力控制机制与无分类引导方法引入扩散模型,利用权重和控制器来控制图像的融合特征,融合后的图像纹理强、细节质量高、视觉感好。本发明能够学习两幅图像的信息,获得参考图像的视觉色彩纹理以及内容图像的框架结构,解决了风格迁移过拟合、信息丢失、融合效率低等问题,在图像处理、机器视觉、图像编辑等领域具有很好的应用价值。
主权项:1.一种基于软注意力控制无分类器指导的快速双流去噪扩散模型,其特征在于,该模型是基于物理热力学扩散思想构建的深度学习模型,是能够实现图像风格迁移的神经网络模型;所述的模型是由内容提取模块、风格提取模块和图像融合模块构成的,其功能分别为提取内容图像的内容嵌入信息、提取参考图像的风格嵌入信息以及根据其生成最终的融合图像数据;所述的内容提取模块含有两个输入和两个输出,分别为“输入1”、“输入S1”和“输出V1”和“输出Zt”,所述的输入1为所输入的内容图像,所述的输入S1为所述输入1的标签,其为任意的字符串,用于声明一个占位符以存储学习到的内容图像文本嵌入,所述的输出V1为所述内容图像的内容文本嵌入张量,其含有所学习到的内容图像文本嵌入信息,所述的输出Zt为所述内容图像的隐变量噪声图,是添加噪声后的含有内容图像重要信息特征的噪声内容图像张量数据,所述的两个输出作为所述图像融合模块的输入;所述的风格提取模块含有两个输入和一个输出,分别为“输入2”、“输入S2”和“输出V2”,所述的输入2为所输入的参考图像,所述的输入S2为所述输入2的标签,其为与所述输入S1不同的任意字符串,用于声明一个占位符以存储学习到的参考图像文本嵌入,所述的输出V2为所述参考图像的风格文本嵌入张量,其含有所学习到的参考图像文本嵌入信息,其作为所述图像融合模块的输入;所述的图像融合模块含有三个输入和一个输出,所述的一个输出为最终所获得的兼有所述参考图像风格特征、所述内容图像内容特征的融合图像数据;所述的风格提取模块由图像压缩编码器、加噪器1、噪声预测器1、去噪器1、网络优化控制器1和文本编码器A组成;所述的图像压缩编码器含有一个输入和一个输出,所述的一个输入为所述的输入2,所述的一个输出为输出11,其为所述加噪器1和网络优化控制器1的输入,该编码器将所述输入2转换为含有不同图像特征的多通道潜空间隐变量数据矩阵;所述的加噪器1含有一个输入和两个输出,所述的两个输出为“输出Z”和“输出N2”,其分别为添加噪声的含有所述参考图像重要信息特征的多通道潜空间隐变量数据和所添加的噪声数据,所述的输出Z作为所述噪声预测器1和去噪器1的输入,所述的输出N2作为所述网络优化控制器1的输入;所述的噪声预测器1含有两个输入和一个输出,所述的两个输入为“输入Z”和“输入TE”,分别与所述输出Z以及所述文本编码器A的输出相对应,所述的一个输出为输出N1,是所预测出的所述输入Z所含有的噪声数据,其作为所述去噪器1、网络优化控制器1的输入;所述的去噪器1含有两个输入和一个输出,所述的一个输出为输出I2,是根据其输入所重构的所述图像压缩编码器的潜空间隐变量输出,其为所述网络优化控制器的输入;所述的网络优化控制器1含有四个输入和一个隐式输出,所述的四个输入为“输入I1”、“输入N2”、“输入I2”、“输入N1”,分别与所述的“输出I1”、“输出N2”、“输出I2”、“输出N1”相对应,其根据输入进行隐式计算并依据计算结果对所述文本编码器A进行梯度优化;所述的文本编码器A含有一个输入和一个输出,分别为所述输入S2和输出TE,它根据其输入以及所述网络优化控制器1的隐式输出获得所学习到的所述参考图像的风格文本嵌入张量TE;所述的图像压缩编码器是由卷积层、3个串联的下采样块、3个串联的残差层1、注意力层1、残差层1、正则化层、卷积层、Swish激活函数层、对角高斯分布处理层依次串联构成;所述的下采样块是由2个串联的残差层1和下采样层依次串联构成;所述的残差层1是由正则化层、Swish激活函数层、卷积层4-1、正则化层、Swish激活函数层、卷积层4-2、运算层1依次串联构成,所述的运算层1执行的是所述卷积层4-2的输出与所述残差层1的输入之间的求和运算;所述的下采样层是由填充层、卷积层依次串联构成;所述的注意力层1是由正则化层、卷积层、结构变换层1、转置层1-1、运算层2、归一化层、转置层1-2、运算层3、结构变换层2、运算层1、卷积层依次串联构成;所述的运算层1执行的是所述结构变换层2的输出和所述注意力层1的输入之间的求和运算;所述的运算层2执行的是所述转置层1-1的输出和所述正则化层的输出依次经过卷积层、结构变换层的处理而得到的输出之间的矩阵乘运算;所述的运算层3执行的是所述转置层1-2的输出和所述正则化层的输出经过卷积层处理后得到的输出之间的矩阵乘运算;所述的对角高斯分布处理层,是对其输入进行对角高斯分布处理,得到输入数据的潜空间数据分布;所述的噪声预测器1是由卷积层1-1、2个串联的注意力块A、下采样层1-1、2个串联的注意力块A、下采样层1-2、2个串联的注意力块A、下采样层1-3、2个串联的残差层2、连接块A、运算层4-1、3个串联的残差层2、上采样层1-1、运算层4-2、3个串联的注意力块A、上采样层1-2、运算层4-3、3个串联的注意力块A、上采样层1-3、运算层4-4、3个串联的注意力块AA、运算层4-5、正则化层、SiLu激活函数层、卷积层1-2依次串联构成;所述的注意力块A和注意力模块AA具有相同的结构和功能,均是由残差层2、空间转换层1串联构成,所述的连接块A由残差层2、空间转换层1、残差层2依次串联构成;所述的运算层4-1执行的是所述的2个串联的残差层2的输出与所述的连接块A的输出之间的拼接运算,所述的拼接运算是在通道维度上对所输入的两个张量序列进行通道扩张连接;所述的运算层4-2执行的是所述下采样层1-3的输出与所述上采样层1-1之间的拼接运算;所述的运算层4-3执行的是所述的下采样层1-2的输出与所述的上采样层1-2的输出之间的拼接运算;所述的运算层4-4执行的是所述的下采样层1-1的输出与所述上采样层1-3的输出之间的拼接运算;所述的运算层4-5执行的是所述卷积层1-1的输出与所述噪声预测器的最后一个注意力块AA的输出之间的拼接运算;所述的空间转换层1含有两个输入一个输出,所述的两个输入为所述的输入TE和所述注意力块A的残差层2的输出;所述的残差层2是由正则化层、SiLu激活函数层、卷积层3-1、运算层1-1、正则化层、SiLu激活函数层、卷积层3-2、运算层1-2依次串联构成;所述的运算层1-1有两个输入和一个输出,所述的两个输入中的一个输入为所述卷积层3-1的输出,另一个输入为所述残差层2的输入经过所述SiLu激活函数层和线性层的串行处理而得到的输出,所述运算层1-1实现的是其两个输入之间的求和运算,所述的求和运算采用了add算法;所述的运算层1-2含有两个输入一个输出,所述的两个输入分别为所述卷积层3-2的输出和所述残差层2的输入,所述的一个输出作为所述残差层2的输出,所述运算层1-2实现的是其两个输入之间的求和运算,所述求和运算采用了add算法;所述的空间转换层1是由正则化层、卷积层5-1、层归一化层1-1、自注意力层1、运算层1-3、层归一化层1-2、交叉注意力层1、运算层1-4、层归一化层1-3、前馈层、运算层1-5、卷积层5-2、运算层1-6依次串联构成;所述的运算层1-3执行的是所述自注意力层1的输出和所述卷积层5-1的输出之间的求和运算;所述的运算层1-4实现的是所述的交叉注意力层1的输出和所述的运算层1-3的输出之间的求和运算;所述的运算层1-5实现的是所述前馈层的输出和所述运算层1-4的输出之间的求和运算;所述的运算层1-6实现的是所述卷积层5-2的输出和所述空间转换层1的输入之间的求和运算;所述的自注意力层1有两个输入一个输出,所述的第一个输入为所述的层归一化层1-1的输出,所述的第二个输入为所述的空间转换层1的TE输入,也就是说所述的输入TE;所述的交叉注意力层1有两个输入一个输出,所述的第一个输入为所述的层归一化层1-2的输出,所述的第二个输入为所述的空间转换层1的TE输入;所述的自注意力层1和交叉注意力层1具有完全相同的结构以及功能,均是由线性层、结构变换层5、转置层、结构变换层6、运算层5、归一化层、运算层6、结构变换层7、转置层、结构变换层8、线性层依次串联构成;所述的运算层5含有两个输入,其中一个输入是所述结构变换层6的输出,另一个输入是所述自注意力层1的TE输入经过线性层、结构变换层、转置层、结构变换层的依次串行处理后得到的输出,所实现的是对其两个输入之间的批量矩阵连乘运算;所述的运算层6含有两个输入,其中一个输入是所述归一化层的输出,另一个输入是所述自注意力层1的TE输入经过线性层、结构变换层、转置层、结构变换层的依次串行处理后得到的输出,所实现的是对其两个输入之间的矩阵连乘运算;所述的前馈层是由GEGLU激活函数层、Dropout正则化层、线性层依次串联构成;所述的文本编码器A是由分词器、12个串联的文本编码块、层归一化层依次串联构成,其作用分别为根据其输入构建用于存储所述参考图像的风格文本嵌入张量的容器、学习并生成所述参考图像的风格文本嵌入张量数据、对生成的风格文本嵌入张量数据归一化处理;所述的文本编码块是由注意力层2、GELU激活函数层、2个线性层、层归一化层依次串联构成;所述的注意力层2是由层归一化层、卷积层、结构变换层3、转置层1-3、运算层2、归一化层、转置层1-4、运算层3、结构变换层4、运算层1、卷积层依次串联构成,所述层归一化层的输入为所述注意力层2的输入;所述的运算层1执行的是所述结构变换层4的输出和所述注意力层2的输入之间的求和运算;所述的运算层2执行的是所述转置层1-3的输出和所述层归一化层的输出依次经过卷积层、结构变换层的处理而得到的输出之间的矩阵乘积运算;所述的运算层3执行的是所述转置层1-4的输出和所述层归一化层的输出经过卷积层处理后得到的输出之间的矩阵乘运算;所述的网络优化控制器1,由损失函数和优化器构成,所述的损失函数为: 其中的∈是所添加的服从正态分布的随机噪声,与所述的输入N2相对应,为根据t,vref所预测的噪声,与所述的输入N1相对应;为加噪后的所述参考图像的潜空间隐变量,与所述的输入Z相对应;vref为所述文本编码器A的输出TE;t∈[20,200]为所述噪声预测器1在预测噪声时所使用的时间步长值,为所述参考图像的潜空间隐变量,与所述图像压缩编码器的输出相对应;为所述去噪器1的输出,是重构的所述参考图像的潜空间隐变量数据;E∈,t是均方误差操作,是L2范数;所述的优化器根据所述损失函数L1的值对所述文本编码器A进行优化,采用的优化规则为使所述文本编码器A的神经元梯度整体下降收敛;所述的内容提取模块由依次串联的图像压缩编码器2、加噪器2、噪声预测器2、去噪器2、网络优化控制器2以及文本编码器B组成;所述的图像压缩编码器2和所述的图像压缩编码器1具有完全相同的结构和功能,其含有一个输入和输出,分别为所述的输入1和输出I4,所述的输成I4为所述加噪器2和网络优化控制器2的输入,该编码器将所述输入1转换为含有不同图像特征的多通道潜空间隐变量数据矩阵;所述的加噪器2含有一个输入和一个输出,所述的一个输出为输出Z2,其作为所述噪声预测器2、所述去噪器2的输入,为添加噪声的含有所述内容图像重要信息特征的多通道潜空间隐变量数据,该输出也为所述内容提取模块的输出Zt;所述的噪声预测器2含有两个输入和一个输出,所述的两个输入为所述的输出Z2和所述文本编码器B的输出TE2,所述的一个输出为所预测出的所述输入Z2所含有的噪声数据,其作为所述去噪器2的输入;所述的去噪器2和所述去噪器1具有相同的结构和功能,含有两个输入和一个输出,所述的一个输出为输出I3,其为根据其输入所重构的所述图像压缩编码器2的输出;所述的网络优化控制器2含有两个输入和一个隐式输出,所述的两个输入为“输入I3”、“输入I4”,分别与所述的“输出I3”、“输出I4”相对应,其根据输入进行隐式计算并依据计算结果对所述文本编码器B进行梯度优化;所述的文本编码器B和所述文本编码器A具有相同的结构和功能,含有一个输入和一个输出,分别为所述的输入S1和所述内容图像的文本嵌入张量,它根据其输入以及所述网络优化控制器2的隐式输出获得所学习到的所述内容图像的文本嵌入向量V1;所述的网络优化控制器2由损失函数和优化器构成,所述的损失函数为: 其中的为所述内容图像的潜空间隐变量,与所述的输入I4相对应;为根据所述去噪器2的输入所重构的内容图像的潜空间隐变量数据,与所述的输入I3相对应;为加噪后的所述内容图像的潜空间隐变量,与所述的输出Z2相对应;为所述文本编码器B的输出;所述的优化器根据所述损失函数L2的值进行优化,采用的优化规则为使所述文本编码器B的神经元梯度整体下降收敛;所述的噪声预测器2和所述噪声预测器1具有完全相同的结构和功能,其由卷积层2-1、2个串联的注意力块B、下采样层2-1、2个串联的注意力块B、下采样层2-2、2个串联的注意力块B、下采样层2-3、2个串联的残差层2、连接块B、运算层4-6、3个串联的残差层2、上采样层2-1、运算层4-7、3个串联的注意力块B、上采样层2-2、运算层4-8、3个串联的注意力块B、上采样层2-3、运算层4-9、3个串联的注意力块BB、运算层4-10、正则化层、SiLu激活函数层、卷积层2-2依次串联构成;所述的注意力块B和注意力模块BB具有相同的结构,均是由残差层2、空间转换层2串联构成,所述的连接块B由残差层2、空间转换层2、残差层2依次串联构成;所述运算层4-6执行的是所述的2个串联的残差层2的输出与所述的连接块B的输出之间的拼接运算,所述的拼接运算是在通道维度上对输入的两个张量序列进行通道扩展连接;所述的运算层4-7执行的是所述下采样层2-3的输出与所述的上采样层2-1之间的拼接运算;所述的运算层4-8执行的是所述的下采样层2-2的输出与所述的上采样层2-2的输出之间的拼接运算;所述的运算层4-9执行的是所述的下采样层2-1的输出与所述上采样层2-3的输出之间的拼接运算;所述的运算层4-10执行的是所述卷积层2-1的输出与所述噪声预测器的最后一个注意力块BB的输出之间的拼接运算;所述的空间转换层2含有两个输入一个输出,所述的两个输入为所述的输入TE和所述注意力块B的残差层2的输出;所述的空间转换层2和所述的空间转换层1具有相同的结构和功能,其由正则化层、卷积层6-1、层归一化层1-4、自注意力层2、运算层1-7、层归一化层1-5、交叉注意力层2、运算层1-8、层归一化层1-6、前馈层、运算层1-9、卷积层6-2、运算层1-10依次串联构成;所述的运算层1-7执行的是所述自注意力层2的输出和所述卷积层6-1的输出之间的求和运算;所述的运算层1-8实现的是所述的交叉注意力层2的输出和所述的运算层1-7的输出之间的求和运算;所述的运算层1-9实现的是所述前馈层的输出和所述运算层1-8的输出之间的求和运算;所述的运算层1-10实现的是所述卷积层6-2的输出和所述空间转换层2的输入之间的求和运算;所述的自注意力层2有两个输入一个输出,所述的第一个输入为所述的层归一化层1-4的输出,所述的第二个输入为所述文本编码器B所输出的文本嵌入张量;所述的交叉注意力层2有两个输入一个输出,所述的第一个输入为所述的层归一化层1-5的输出,第二个输入为所述文本编码器B所输出的文本嵌入张量;所述的自注意力层2和交叉注意力层2具有完全相同的结构以及功能,均是由线性层、结构变换层9、转置层、结构变换层10、运算层7-1、归一化层、软注意力控制层、运算层7-2、结构变换层11、转置层、结构变换层12、线性层依次串联构成;所述的运算层7-1含有两个输入,其中一个输入是所述结构变换层10的输出,另一个输入是所述自注意力层2的文本嵌入张量TE输入经过线性层、结构变换层、转置层、结构变换层的依次串行处理后得到的输出,所实现的是对其两个输入之间的乘积和运算;所述的运算层7-2含有两个输入,其中一个输入是所述软注意力控制层的输出,另一个输入是所述自注意力层2的文本嵌入张量TE输入经过线性层、结构变换层、转置层、结构变换层的依次串行处理后得到的输出,所实现的是对其输入的乘积和运算;所述的软注意力控制层含有两个输入和一个输出,所述两个输入中的第一个输入为所述归一化层的输出,第二个输入为所述的自注意力层2的文本嵌入张量TE输入,其所实现的是根据所述噪声预测器2的TE输入生成注意力分数图替换图KK1,以之对所述归一化层输出的注意力分数图KK2进行替换也就是说将内容图像的注意力分数图添加到生成过程中的注意力分数图中,得到调整后的注意力分数图KK=ρ·KK1+1-ρ·KK2,ρ∈[0,1]为替换比例参数;所述的图像融合模块由运算层A、噪声预测器2、去噪器2、图像解码器组成,其含有三个输入和一个输出,所述的三个输入为“输入Zt”’、“输入V1”、“输入V2”,分别对应着所述的输出Zt、输出V1和输出V2;所述的运算层A含有两个输入和一个输出,所述的两个输入分别为所述的输入V1和输入V2;所述的噪声预测器2含有两个输入和一个输出,所述的两个输入为所述的输入Zt和所述运算层A的输出;所述的去噪器2含有两个输入和一个输出,所述的两个输入为所述的输入Zt和所述噪声预测器2的输出;所述的图像解码器含有一个输入和一个输出,所执行的是对其输入的解压缩运算,所述的一个输入为所述去噪器2的输出,所述的一个输出为所述图像融合模块的输出,也就是所获得的融合了所述内容图像的内容特征和所述参考图像的风格特征的融合图像数据;所述运算层A执行的是对其输入的拼接操作,所述的拼接操作是对其两个输入的加权求和运算,得到的是融合了所述参考图像文本嵌入信息的文本嵌入张量V=1-αV1+αV2,α∈[0,1]为加权系数;所述的图像解码器是由卷积层、残差层1、注意力层1、残差层1、3个串联的上采样块、2个串联的残差层1、正则化层、卷积层、Swish激活函数层依次串联构成;所述的上采样块是由3个串联的残差层1和上采样层依次串联构成;所述的上采样层是由插值层、卷积层依次串联构成;所述的填充层的构建参数包括填充大小、填充方式和填充方法,实现对其输入数据尺寸的扩展;所述的插值层的构建参数包括尺寸缩放参数、插值方式,用于调整其输入图像的大小,填充缺失的像素值;所述的卷积层包括卷积层、卷积层1-1、卷积层1-2、卷积层2-1、卷积层2-2、卷积层3-1、卷积层3-2、卷积层4-1、卷积层4-2、卷积层5-1、卷积层5-2、卷积层6-1、卷积层6-2具有完全相同的结构和功能,其结构构建参数包括卷积核数量、卷积核大小、卷积核步长、卷积核的填充方式,其功能是通过卷积操作实现对其输入的特征图的提取;所述的卷积层的差别体现在其具有不同的“卷积核数量”、“卷积核大小”、“卷积核步长”、“卷积核填充方式”结构参数;所述的正则化层包括具有完全形同的结构和功能,其结构构建参数包括组数、通道数、eposilon值、训练参数,其功能为用于规范化输入的数据;所述的线性层具有完全相同的结构和功能,其作用是实现其输入的线性变换,将输入的特征进行线性组合,然后输出给定大小的特征空间;所述的层归一化层包括层归一化层、层归一化层1-1、层归一化层1-2、层归一化层1-3、层归一化层1-4、层归一化层1-5、层归一化层1-6具有完全相同的结构和功能,其作用是对输入进行归一化处理使每个特征的均值为0、方差为1;所述的归一化层的作用是将输入的数值向量归一化为概率分布向量;所述的结构变换层包括结构变换层、结构变换层1、结构变换层2、结构变换层3、结构变换层4、结构变换层5、结构变换层6、结构变换层7、结构变换层8、结构变换层9、结构变换层10、结构变换层11、结构变换层12具有完全相同的结构和功能,其作用是将输入张量的维度重新设置,将输入的“批次、长度、维度”形式的张量转换为“批次*通道数、长度、维度通道数”形式的张量;所述的转置层包括转置层、转置层1-1、转置层1-2、转置层1-3、转置层1-4具有完全相同的结构和功能,其功能是用于重新排列输入张量的维度;所述的Dropout正则化层的功能为通过随机将部分神经元的输出置为0来减少过拟合;所述的GEGLU激活函数层的构建,采用了指数线性单元函数和门控线性单元函数激活处理;所述的Swish激活函数层的构建,采用了Sigmoid激活函数进行激活处理并乘以自身;所述的SiLu激活函数层的构建,采用了Sigmoid激活函数进行激活处理并乘以自身;所述的GELU激活函数层的构建,采用了高斯误差线性单元函数激活处理。
全文数据:
权利要求:
百度查询: 天津科技大学 一种基于软注意力控制无分类器指导的快速双流去噪扩散模型及图像融合方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。