北京邮电大学陈科良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京邮电大学申请的专利基于实时音频驱动的数字人头像生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119006663B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411061800.4,技术领域涉及:G06T13/20;该发明授权基于实时音频驱动的数字人头像生成方法是由陈科良;李宗泽;黄云霞;黄奕天;谭力屯;黎佳泓设计研发完成,并于2024-08-05向国家知识产权局提交的专利申请。
本基于实时音频驱动的数字人头像生成方法在说明书摘要公布了:本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。
本发明授权基于实时音频驱动的数字人头像生成方法在权利要求书中公布了:1.一种基于实时音频驱动的数字人头像生成方法,其特征在于,包括如下步骤:头像渲染模型训练阶段:S100:根据人头动态动作视频帧提取获得连续帧的N张头像图片,N>1;S101:将所述N张头像图片输入至3DDFA模型,提取头像的3DMM点云数据,以及与N张头像图片对应的N组人脸关键特征作为驱动信号;S102:所述3DMM点云数据经过3DGS初始化,获得描述所述3DMM点云数据的静态高斯分布,计算所述高斯分布的空间位置语义信息,并作为静态高斯分布的嵌入标签,生成头像动态高斯函数;S103:当前头像图片对应的所述驱动信号和所述空间位置语义信息输入至动作控制器,预测输出头像动作偏移量;S104:所述头像动作偏移量叠加更新至所述头像动态高斯函数后,将更新后的所述头像动态高斯函数对应3D空间中的高斯分布投影到二维图像平面上获得渲染头像图片;S105:根据所述渲染头像图片与所述当前头像图片进行损失函数计算,根据损失函数计算结果反向优化更新所述空间位置语义信息后,重复执行S103-S105,直至所述N张头像图片训练完毕,获得训练好的头像渲染模型;所述损失函数计算的步骤包括:损失函数表示如下: 其中,λ1和λ2分别代表和权重; 其中,为渲染头像图片,I为对应的头像图片; 其中,使用VGG19网络提取渲染头像图片和对应的头像图片的特征,表示VGG19网络的第i层的输出;音频特征提取模型训练阶段:S200:将给定时长的音频输入至音频特征提取模型,用于提取音频编码特征;S201:根据所述人脸关键特征和所述音频编码特征进行损失函数计算,根据损失函数计算结果反向优化更新所述音频特征提取模型,获得训练好的音频特征提取模型;实时音频驱动的数字人头像生成阶段:所述训练好的头像渲染模型调取所述3DMM点云数据和所述驱动信号;将实时音频输入至所述训练好的音频特征提取模型提取实时音频编码特征,将所述实时音频编码特征与所述驱动信号对齐并替换,实现音频对人脸语义先验的驱动;利用所述训练好的头像渲染模型输出实时数字人头像的渲染图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。