买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种文本驱动的人脸图像编辑方法,属于AIGC技术领域。文本驱动的人脸编辑方法的实施包括:构建人脸属性概念字典;生成StyleGAN样式空间隐向量;利用CLIP编码器对人脸数据和属性字典进行编码,得到图像和文本隐向量特征及其均值;基于隐向量特征均值,通过凸优化算法构建人脸属性编码器;使用人脸属性编码器对输入图像进行编码,获得图像特征隐向量;构建损失函数,最小化随机成对图像间的隐向量差值和样式空间隐向量差值的距离,训练映射网络;利用训练好的映射网络对输入文本进行推理,得到样式空间编辑方向。本发明有效解决了文本驱动人脸编辑中人脸身份信息不一致的问题。该技术在AIGC时代展现出大语言模型驱动人脸图像编辑的广阔应用前景。
主权项:1.一种文本驱动的人脸图像编辑方法,其特征在于,所述方法包括以下步骤:S1、准备大型公开人脸数据集和人脸文本描述数据集,并基于人脸文本描述构建人脸属性概念字典;S2、利用基于风格的生成对抗网络StyleGAN对人脸数据集进行逆映射处理,得到样式空间StyleSpace隐向量;S3、将人脸图像和人脸属性概念字典输入人脸属性编码器中,得到人脸特征隐向量;其中,人脸属性编码器由两个对比语言-图像预训练模型CLIP、一个凸优化模块和一个特征提取器组成;人脸图像和概念字典输入CLIP编码器,转化为低维隐向量表示;图像和文本的低维隐向量经过中心化、归一化处理后输入凸优化模块,得到最优人脸属性概念权重向量;人脸属性概念权重向量输入特征提取器,得到人脸特征隐向量;S4、训练隐向量映射网络,得到代表编辑方向的预测样式空间隐向量差值;采用人脸属性编码器和StyleGAN编码器将随机成对图像分别编码为人脸特征隐向量 v1、v2和样式空间隐向量s1、s2;分别将成对的人脸特征隐向量和样式空间隐向量求差得到 人脸特征隐向量差值和样式空间隐向量差值;利用特征隐向量差值映射网络计算由 人脸特征嵌入差值引导样式空间隐向量s1融合生成的预测样式空间隐向量差值和样 式空间隐向量差值的损失;利用损失函数优化映射网络; S5、根据编辑要求定义人脸属性概念权重向量,将其送入特征提取器,得到符合编辑要求的人脸特征隐向量;其中,根据编辑要求,保留人脸属性概念权重向量中需编辑属性的权重,将其余属性权重设为零;S6、将目标图像的样式空间隐向量及满足编辑要求的人脸特征隐向量输入已训练好的人脸编辑模型,得到最终图像。
全文数据:
权利要求:
百度查询: 东北大学秦皇岛分校 一种文本驱动的人脸图像编辑方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。