买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门大学
摘要:一种增强的对象操纵和背景一致的图像编辑方法,采用扩散模型对原始图像进行图像编辑,主要步骤:在预设数量的时间步内对原始潜在代码逐步进行反演更新,并且在特定时间步将编辑对象从源区域转移到目标区域,并对编辑对象转移后的源区域背景进行修复,同时保持编辑对象转移后的未编辑区域背景完整,以在反演阶段的特定时间步中采用最终损失函数对特定潜在代码进行迭代更新,最终得到更新后潜在代码;将更新后潜在代码和编辑对象动作的指示文本输入UNet去噪器中进行采样去噪得到编辑图像。借此,可在反演阶段于目标区域中注入编辑对象并保持背景完整性,同时可在采样阶段确保被编辑对象产生指定的动作,保证编辑前后图像内容的一致性。
主权项:1.一种增强的对象操纵和背景一致的图像编辑方法,采用扩散模型对原始图像进行图像编辑,该扩散模型包括VAE编码器、VAE解码器和UNet去噪器;所述UNet去噪器包括自注意力模块和交叉注意力模块,其特征在于包括如下步骤:步骤S1、获取图像编辑信息,将原始图像输入VAE编码器中编码得到原始潜在代码:该图像编辑信息包括编辑对象动作的指示文本,以及编辑对象生成位置的目标边界框;设原始图像中编辑对象的最初位置为源区域,则目标边界框所在的位置为编辑对象的目标区域,并且目标区域和源区域的并集的补集为未编辑区域;步骤S2、在预设数量的时间步内对原始潜在代码逐步进行反演更新,并且对反演阶段中特定时间步的特定潜在代码执行如下步骤的迭代更新,最终得到更新后潜在代码:步骤S21、在该特定时间步将编辑对象从源区域转移到目标区域:利用UNet去噪器中交叉注意力模块的交叉注意力图对特定潜在代码进行更新,令与编辑对象相对应的所述交叉注意力图在目标区域范围内获得最高的注意力分数,与编辑对象相对应的所述交叉注意力图在目标区域范围外获得最低的注意力分数,从而将编辑对象从源区域转移到目标区域;步骤S22、对编辑对象转移后的源区域背景进行修复:将编辑对象转移到目标区域后,通过交叉注意力图的高响应区域定位编辑对象的源区域,同时,将源区域中减去源区域和目标区域的并集,得到一个新的源区域;再对新的源区域对应的掩膜进行膨胀操作,获得新的源区域周围的边缘区域;通过提取特定潜在代码在新的源区域的特征和原始潜在代码在边缘区域的特征,并计算特定潜在代码在新的源区域的特征和原始潜在代码在边缘区域的特征之间的L1损失,以对源区域背景进行修复;步骤S23、保持编辑对象转移后的未编辑区域背景完整:通过提取原始潜在代码和特定潜在代码在未编辑区域的特征,并计算原始潜在代码在未编辑区域的特征和特定潜在代码在未编辑区域的特征之间的L1损失,以保持未编辑区域的完整性;步骤S24、在反演阶段的特定时间步中采用最终损失函数对特定潜在代码进行迭代更新,以在目标区域中注入编辑对象并保持背景完整性;步骤S3、将更新后潜在代码和编辑对象动作的指示文本输入UNet去噪器中进行采样去噪,并在整个采样阶段修改转移后编辑对象的动作,得到最终潜在代码;步骤S4、将最终潜在代码输入VAE解码器中解码得到编辑图像。
全文数据:
权利要求:
百度查询: 厦门大学 一种增强的对象操纵和背景一致的图像编辑方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。