买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明属于计算机技术领域,具体为面部属性驱动的人宠身份保持图像生成模型。本发明模型包含三个模块:图像上下文内容生成模块;面部属性特征嵌入模块;面部属性驱动的身份特征保持局部重绘模块。本发明旨在使用给定的人物或宠物的图像与描述文本,为给定人物或宠物生成高保真度、高质量的写真。本发明基于用户输入文本利用图像上下文生成模块生成与用户的输入文本一致的图像;使用用户提供的图像对嵌入模块和重绘模块进行不同尺度多任务微调训练;最后,通过重绘模块对生成的图像进行局部重绘,将图像中的主体对象重绘为目标人物或宠物。大量实验证明本发明可减少训练时间,并提高身份保真度。
主权项:1.一种面部属性驱动的人宠身份保持图像生成模型,其特征在于,将人物与宠物的身份保持图像生成统一到同一个模型中;该模型将图像的上下文内容生成与人物或宠物的身份生成过程解耦,使用图像上下文内容生成模块生成与身份无关的图像区域,从而提高生成图像的整体质量;此外,构建不同尺度的多任务微调面部属性特征嵌入模块和面部属性驱动的身份保持局部重绘模块,使这些模块学习给定人物或宠物面部属性的细粒度特征,从而提高生成图像中给定人物或宠物的身份保真度和面部细节特征的一致性;具体地,以给定人物或宠物的图像为参考,以给定描述文本为条件,生成具有高身份保真度和高质量的人物或宠物写真图像;包括以下三个模块:1图像上下文内容生成模块;2面部属性特征嵌入模块,简称嵌入模块;3面部属性驱动的身份特征保持局部重绘模块,简称称重绘模块;其中:所述图像上下文内容生成模块,根据用户提供的上下文提示词生成符合提示词描述的上下文内容图像;之后使用用户提供的指定人物或宠物的图像对嵌入模块与重绘模块进行微调,学习给定人物或者宠物的视觉特征;最后根据用户输入的面部提示词,由重绘模块对上下文内容图像中的人物或宠物的面部区域进行局部重绘,得到指定人物或者宠物的图像写真;所述图像上下文内容生成模块和重绘模块均是基于扩散模型原理的,用于实现文本到图像的生成模型;扩散模型的原理是,在一系列时间步t1,t2,…,T上根据扩散规则向输入图像x0添加高斯噪声,直到图像变成纯噪声;然后从该纯噪声开始逐步去噪,还原为原始图像x0;文本到图像的生成模型将加噪与去噪的过程放在潜在空间中进行,并且训练一个去噪模型来实现逐步去噪;在训练过程中,首先将训练图像x0编码成潜在空间隐变量z0,并根据扩散规则与时间步t对其加噪,得到隐变量zt;然后将隐变量zt和对应的时间步t输入去噪模型,在图像标注文本数据的指导下,预测隐变量zt中包含的噪声;完成去噪过程后,将隐变量解码回RGB空间,以生成最终图像;通过训练好的去噪模型,文本到图像的生成模型可以在给定文本的指导下,从任意高斯噪声逐步去噪生成一张图像。
全文数据:
权利要求:
百度查询: 复旦大学 面部属性驱动的人宠身份保持图像生成模型
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。