买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:本发明属于计算机视觉中的图像上色领域,公开了一种基于深度学习的服装手绘图像上色算法。本发明提出了基于语义组件区域的Transformer结构,通过组件特征线性映射和特征传播,理解线稿中不同的语义区域及其上下文关系以保证生成的手绘设计局部面料组件与整体效果图的搭配统一。本发明提出了服装设计先验损失和服装设计组件损失以增强对时尚设计先验知识的理解。通过完成上述工作,为时装设计师提供一种符合技术需求和具有创造力的高质量服装效果图生成方法,达到减少重复性劳动,提高服装设计效率的目的。实验结果表明,我们的方法有效地解决了现有上色方法在整体搭配和面料组件不一致等生成方面所存在的问题,得到更好的上色效果。
主权项:1.一种基于深度学习的服装手绘图像上色算法,其特征在于,设计先验引导的语义组件Transformer网络架构分为两个阶段,第一个阶段为基于语义组件Transformer模块的编码器生成多层级特征图和全局潜在编码,第二个阶段为由粗到细的解码器生成彩色图像,包括如下步骤:第一阶段,基于语义组件Transformer模块的编码器步骤1,获取编码器的输入编码器的输入一部分由手绘线稿和面料样通过一个卷积层进行特征编码得到区域编码特征另一部分输入由SAM模型获得组件区域Ir;步骤2,进行组件特征线性映射使用最近邻插值的方式调节组件区域Ir与区域编码特征的宽和高保持一致,以便于执行组件特征线性映射以及组件特征传播;组件特征线性映射的目的是根据组件区域Ir提供的组件索引,获取某一索引的组件特征嵌入表示实现方式如下: 其中,t表示在组件区域Ir中的索引值,T代表组件区域的总数量,表示在组件区域Ir中相同组件索引t的数量,表示索引t在组件区域Ir中的W和H坐标位置为p,q,表示位置为p,q的区域编码特征,表示索引t所在组件区域的区域编码特征的平均表示向量;通过使用正弦位置编码为前一步获取组件特征嵌入添加位置信息得到组件位置嵌入因此每一个组件特征的线性映射即表示为: 在获得每一个组件特征的线性映射后,首先执行组件特征传播操作,将每一个组件特征的线性映射向量传播至该组件区域,目的是达到相同组件区域的特征表示保持一致,组件区域的自身特征表示实现方式如下: 其中,表示在p,q坐标序列位置的的值填充为步骤3,采用多头注意力模块获取组件之间的相关性已知获得组件区域特征表示对于每一个头,首先获取查询矩阵Q、键矩阵K和值矩阵V由线性投影表示如下: 其中,WQ,WK,WV为可学习的权重;通过计算Q和K的点积,得到衡量两个向量的相关性;并使用softmax对相关性进行归一化,通过将值向量与注意力权重相乘来计算注意力输出,因此,注意公式表示如下: 通过上述公式得到包含区域间相关性的最终区域表示已知,多头Head=head1,head1,…,headh,其中h表示头的数量;将head拼接在一起,与可学习权重Wo相乘,得到多头注意力的输出值;MH=concathead1,…,headhWo其中,设置头的数量为h=8,concat表示拼接,Wo为可学习的权重;表示通道数量;步骤4,进行组件特征传播在获得每个组件与其他组件之间的多头注意力关联映射后,再次执行组件特征传播操作,将每一个组件的多头注意力关联线性映射向量传播至该组件区域,目的是达到相同组件区域的多头注意力关联线性映射向量同样保持一致;实现方式如下: 其中,表示在对应p,q坐标下,该坐标的的值填充为该索引t对应的多头注意力关联线性映射向量MHt;两次组件特征传播操作分别获得和其中表示组件区域自身的特征表示,表示组件与其他组件之间的多头注意力关联特征表示,因此将两种特征融合作为最终的组件区域编码特征: 第二阶段,由粗到细的解码器步骤5,从编码器获取输入并生成彩色图像解码器中的语义组件transformer块包含三个部分的输入:第k层组件区域编码特征解码器第k层组件区域解码特征以及全局潜在编码we;本方法利用全局潜在编码we来控制图像的全局特征,保证生成图像的全局风格信息;然后使用组件区域编码特征作为局部的细节风格调控;具体来说,调控方式如下: 其中,表示使用we对卷积操作Conv进行权重调制。步骤6,将解码器的结果输入卷积层,获得最后生成的服装效果图,将预测图像输入判别器中,使用以下损失函数对生成图像与真实服装效果图的差别进行量化与训练;对抗性损失它能保证生成图像的颜色分布与真实图像的颜色分布保持一致: 其中,D是基于卷积网络的判别器,用于分类生成图片和真实图片;CTg是生成服装效果图,Yg是真实服装效果图;像素级损失衡量真实图像和生成图像之间每个像素的绝对差异: 服装设计先验损失函数服装设计的基本原则之一是确保服装的颜色不要过于繁杂,为了实现这个目标,提出服装设计先验损失函数;这个损失函数的目标是限制生成效果图的颜色分布遵循多峰分布,以确保颜色不会过于复杂;在生成单一效果图时,如果颜色平均分布,可能会导致不合理的过多的色彩;该损失使用HSV颜色空间中的Hue属性,因为它是描述色彩的属性;其目标是使生成图像的色调集中分布,包含较少的不同颜色;损失函数定义如下: 其中,表示生成图像中H通道的第i个元素,则是真实图像中相应像素所属簇的中心颜色,N是图像宽度和高度的乘积;服装语义组件先验损失函数该损失目的是在相同组件区域内生成风格一致的手绘面料;因此,首先执行组件化操作,以获得生成服装效果图以及真实服装效果图的组件 其中,Cgp,q表示真实服装效果图在p,q坐标下的值,Ygp,q表示生成服装效果图在p,q坐标下的值,表示索引t对应的组件区域;接下来,通过约束和各组件区域风格,从而实现局部区域风格一致的目的,使用Gram矩阵表示风格信息: 给定一个卷积神经网络的某一层的特征图表示为F,其中Fik表示该特征图的第i个通道的第j个位置的特征值,k表示特征图的通道数,Gram矩阵的元素Gij表示了特征图中特征之间的相关性;最终,时尚语义组件先验损失表示为: 其中,N表示特征图的数量,M表示每个特征图的尺寸,表示生成图像的组件Gram矩阵,表示真实图像的组件Gram矩阵;该损失使用了VGG-19模型的第一层到第五层的ReLU激活函数输出ReLU1_1、ReLU2_1、ReLU3_1、ReLU4_1和ReLU5_1;模型整体的损失函数被定义为: 其中,为对抗性损失,为像素级损失,为服装设计先验损失,为服装语义组件先验损失。
全文数据:
权利要求:
百度查询: 大连理工大学 一种基于深度学习的服装手绘图像上色算法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。