首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于姿态引导的人体图像生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种基于姿态引导的人体图像生成方法,包括:1从条件人体图像中提取原人体姿态和原人体语义分割图;2将人体图像生成问题分解为两个阶段的问题;其中在第一阶段,输入条件人体图像和条件目标人体姿态,使用语义图生成网络预测得到目标人体语义分割图,并提取出条件人体图像的属性向量;3获得原人体图像中的外观信息;4将条件目标人体姿态和目标人体语义分割图融合输入人体图像渲染网络,输出最终生成的目标人体图像。本发明基于姿态信息进行人体图像的生成,生成符合目标姿态的人体图像,与现有方法相比提高了生成图像的姿态准确度,同时更好地保持了人体的外观属性,进一步可实现更灵活和精确的下游应用。

主权项:1.基于姿态引导的人体图像生成方法,其特征在于,包括以下步骤:1从单幅条件人体图像中提取原人体姿态和原人体语义分割图,包括以下步骤:从给定的条件人体图像Is中提取出原人体姿态Ps,原人体姿态是指与条件人体图像中人物相对应的人体姿态关键点;从给定的条件人体图像Is中提取出原人体语义分割图Ss,原人体语义分割图是指从条件人体图像上提取出来的对应的人体语义分割图;2将人体图像生成问题分解为两个阶段的问题,第一阶段先生成目标人体语义分割图,第二阶段再生成最终的目标人体图像;其中,在第一阶段,输入条件人体图像和条件目标人体姿态,根据前面提取的原人体姿态和原人体语义分割图,使用语义图生成网络预测得到目标人体语义分割图,并提取出条件人体图像的属性向量;语义图生成网络是在第一阶段根据原人体姿态、条件目标人体姿态、条件人体图像和原人体语义分割图这几个条件,预测得到目标人体语义分割图,其具体情况如下:将原人体姿态Ps和条件目标人体姿态Pt组合在一起,经过语义图生成网络的姿态特征编码器里的卷积神经网络提取出姿态特征Fp;将条件人体图像Is和原人体语义分割图Ss组合在一起,经过语义图生成网络的另一个图像特征编码器里的卷积神经网络提取出人体图像特征Fs;语义图生成网络提取出姿态特征Fp和人体图像特征Fs后,经过几层卷积层融合预测生成目标人体语义分割图在语义图生成网络训练过程中,使用了交叉熵损失来限制预测得到的目标人体语义分割图的像素级精度,其目标函数Lce表示为: 式中,St表示训练过程中提供的真实目标人体语义分割图,表示由语义图生成网络预测生成的目标人体语义分割图,N表示目标人体语义分割图里一共划分了多少类别,c表示目标人体语义分割图里的第几个类别;为了增强语义图生成网络生成的目标人体语义分割图和条件人体图像之间的属性一致性,还让语义图生成网络同时预测一个属性向量对其应用了属性分类损失具体公式如下: 式中,vi表示真实的条件人体图像对应的属性向量,M表示属性向量里一共包含了多少种类别,i表示属性向量里的第几个类别;第一阶段的语义图生成网络,训练时总的目标函数L1是交叉熵损失Lce和属性分类损失的加权和,具体公式如下: 式中,λ1和λ2分别为平衡交叉熵损失和属性分类损失的权衡参数;3根据条件人体图像和原人体语义分割图获得原人体图像中的外观信息,包括以下步骤:3.1给定条件人体图像Is作为输入,通过一个由多个卷积层和一个平均池化层组成的纹理编码模块ET来提取人体每个部位的外观信息,得到外观编码,具体表示为: 式中,是指输入的条件人体图像的第i个部位,是指从条件人体图像的第i个部位提取出来的外观编码;3.2将得到的不同部位的外观编码进行组合,形成一个统一的外观矩阵,通过外观矩阵能够在后续的人体图像渲染网络对最终生成的目标人体图像中的人体的不同部位进行渲染;4将条件目标人体姿态Pt和第一阶段预测得到的目标人体语义分割图融合送入人体图像渲染网络,依次经过人体图像渲染网络里面的卷积网络和多层残差网络,不断地注入前面提取的属性向量和外观矩阵,最终输出目标人体图像对于人体图像渲染网络,通过最小化生成的目标人体图像和真实人体图像It之间的L1距离以保持内容一致性,其定义的像素损失Lpixel表示为: 为了提高生成图像的真实性,在人体图像渲染网络中还引入感知损失来计算生成的目标人体图像与真实人体图像It之间提取的特征的距离,其感知损失Lper表示为: 式中,Φj·是指利用网上公开预先训练好的VGG-19模型的第j层网络提取出来的特征;在人体图像渲染网络里设置了两个不同的判别器Da和Dp应用于不同的目的,分别侧重于在外观和姿态方面的监督,促使生成的目标人体图像具有逼真的外观和与条件目标人体姿态一致的姿态,其对抗性损失Ladv表示为: 式中,E*表示分布函数的期望值,Is代表条件人体图像;在人体图像渲染网络也有为了增强最终生成的目标人体图像和条件人体图像之间的属性一致性而应用的属性分类损失具体公式如下: 式中,vi表示真实的条件人体图像对应的属性向量,表示生成的目标人体图像对应的属性向量,M表示属性向量里一共包含了多少种类别,i表示属性向量里的第几个类别;因此,人体图像渲染网络训练时总的目标函数L2为像素损失、感知损失、对抗性损失和属性分类损失的加权和,其表示为: 式中,λ3、λ4、λ5和λ6分别为四个损失项的加权参数。

全文数据:

权利要求:

百度查询: 华南理工大学 基于姿态引导的人体图像生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。