买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。
主权项:1.一种基于实时音频驱动的数字人头像生成方法,其特征在于,包括如下步骤:头像渲染模型训练阶段:S100:根据人头动态动作视频帧提取获得连续帧的N张头像图片,N>1;S101:将所述N张头像图片输入至3DDFA模型,提取头像的3DMM点云数据,以及与N张头像图片对应的N组人脸关键特征作为驱动信号;S102:所述3DMM点云数据经过3DGS初始化,获得描述所述3DMM点云数据的静态高斯分布,计算所述高斯分布的空间位置语义信息,并作为静态高斯分布的嵌入标签,生成头像动态高斯分布;S103:当前头像图片对应的所述驱动信号和所述空间位置语义信息输入至动作控制器,预测输出头像动作偏移量;S104:所述头像动作偏移量叠加更新至所述头像动态高斯函数后,将更新后的所述头像动态高斯函数对应3D空间中的高斯分布投影到二维图像平面上获得渲染头像图片;S105:根据所述渲染头像图片与所述当前头像图片进行损失函数计算,根据损失函数计算结果反向优化更新所述空间位置语义信息后,重复执行S103-S105,直至所述N张头像图片训练完毕,获得训练好的头像渲染模型;音频特征提取模型训练阶段:S200:将给定时长的音频输入至音频特征提取模型,用于提取音频编码特征;S201:根据所述人脸关键特征和所述音频编码特征进行损失函数计算,根据损失函数计算结果反向优化更新所述音频特征提取模型,获得训练好的音频特征提取模型;实时音频驱动的数字人头像生成阶段:所述训练好的头像渲染模型调取所述3DMM点云数据和所述驱动信号;将实时音频输入至所述训练好的音频特征提取模型提取实时音频编码特征,将所述实时音频编码特征与所述驱动信号对齐并替换,实现音频对人脸语义先验的驱动;利用所述训练好的头像渲染模型输出实时数字人头像的渲染图。
全文数据:
权利要求:
百度查询: 北京邮电大学 基于实时音频驱动的数字人头像生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。