首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数字人稳定口型的训练方法、装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门蝉羽网络科技有限公司

摘要:本发明提供了一种数字人稳定口型的训练方法、装置,通过关键点检测,裁剪获取人脸图像数据,将人脸图像数据分为全局人脸区域和局部人脸区域,分别计算全局人脸区域和局部人脸区域的vggloss;通过使用多帧人脸的平滑,达到连续帧人脸之间具有高度连续性;使用预设的音频检测模型检测出静音段,根据所述静音段对应的嘴部连续帧,计算vgg特征,并计算帧间特征差值,将特征差值作为数字人模型的损失;获取两个参考帧、一个前一帧和一个当前帧作为数字人模型的输入,输出人脸图像;使用多帧传递的方式进行模型输出的loss计算,以完成对数字人模型的训练。解决现有数字人的口型驱动方案,经常会出现说话时和不说话时数字人嘴巴抖动问题。

主权项:1.一种数字人稳定口型的训练方法,其特征在于,包括:通过关键点检测,裁剪获取人脸图像数据,将所述人脸图像数据分为全局人脸区域和局部人脸区域,并分别计算所述全局人脸区域和局部人脸区域的vggloss,其中,vggloss是使用vggnet感知神经网络计算得到的loss损失,所述全局人脸区域的vggloss用于生成更加像真实人脸,所述局部人脸区域的vggloss用于生成更加真实的嘴唇和牙齿;通过使用多帧人脸的平滑,以达到连续帧人脸之间具有高度连续性;在数据平滑的前提下,使用预设的音频检测模型检测出静音段,根据所述静音段对应的嘴部连续帧,计算vgg特征,并计算帧间特征差值,将特征差值作为数字人模型的损失;获取两个参考帧、一个前一帧和一个当前帧作为数字人模型的输入,输出人脸图像,一个参考帧为固定参考帧,另一个参考帧为随机参考帧或前一帧,所述当前帧为模型需要生成的被局部掩码的帧,所述前一帧是所述当前帧的前一帧;使用多帧传递的方式进行模型输出的loss计算,其中,此计算过程是将数字人模型的输出以参考帧的身份作为下一次的输入,通过连续多帧的loss计算,让模型学习自动矫正前一帧错误信息的能力,直至达到预设输出结果,完成对数字人模型的训练;计算帧间特征差值,将特征差值作为数字人模型的损失,计算公式为:Loss=L1vgg1-vgg2+L1vgg2-vgg3+...+L1vggs-1-vggss-1其中,Loss为帧间特征差值,L1为1范式,s为所述vgg特征的个数,vggs为第s个vgg特征,vgg1为第1个vgg特征,vgg2为第2个vgg特征,vgg3为第3个vgg特征。

全文数据:

权利要求:

百度查询: 厦门蝉羽网络科技有限公司 一种数字人稳定口型的训练方法、装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。