长城信息股份有限公司王波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉长城信息股份有限公司申请的专利一种语音驱动目标人视频生成方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114202604B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111466434.7,技术领域涉及:G06T13/20;该发明授权一种语音驱动目标人视频生成方法、装置及存储介质是由王波;吴笛;张沅;刘吉伟;罗东设计研发完成,并于2021-11-30向国家知识产权局提交的专利申请。
本一种语音驱动目标人视频生成方法、装置及存储介质在说明书摘要公布了:本发明公开了一种语音驱动目标人视频生成方法、装置及存储介质,其中方法包括:获取语音数据和人物上半身正面图像;基于获取的人物上半身正面图像提取初始头部关键点坐标矩阵和初始上半身关键点坐标矩阵;基于获取的语音数据分离语音内容信息和音频信息;基于语音内容信息、音频信息、初始头部关键点坐标矩阵以及初始上半身关键点坐标矩阵,训练语音内容信息、音频信息与头部关键点坐标及上半身关键点坐标之间的多维映射关系;基于多维映射关系生成得到视频图像帧序列;将视频图像帧序列与语言数据进行拼接,得到目标人语音视频。充分考虑了头部动作和上半身的联动,生成的视频自然,真实感强。
本发明授权一种语音驱动目标人视频生成方法、装置及存储介质在权利要求书中公布了:1.一种语音驱动目标人视频生成方法,其特征在于,包括: 获取语音数据和人物上半身正面图像; 基于获取的人物上半身正面图像提取初始头部关键点坐标矩阵和初始上半身关键点坐标矩阵; 基于获取的语音数据分离语音内容信息和音频信息; 基于语音内容信息、音频信息、初始头部关键点坐标矩阵以及初始上半身关键点坐标矩阵,训练语音内容信息、音频信息与头部关键点坐标及上半身关键点坐标之间的多维映射关系; 基于多维映射关系生成得到视频图像帧序列; 将视频图像帧序列与语言数据进行拼接,得到目标人语音视频; 所述基于语音内容信息、音频信息、头部关键点坐标矩阵以及上半身关键点坐标矩阵,训练语音内容信息、音频信息与头部关键点坐标及上半身关键点坐标之间的多维映射关系,具体包括: 将语音内容矩阵和初始头部关键点坐标矩阵输入第一多层感知器,预测每一帧图像中头部关键点坐标矩阵的位移; 基于初始头部关键点坐标矩阵及每一帧图像中头部关键点坐标矩阵的位移,得到每一帧图像头部位置预测坐标; 基于自注意力网络,将语音内容矩阵和音频矩阵进行融合得到自重构音频移动矩阵; 将自重构音频移动矩阵、初始头部关键点坐标矩阵及初始上半身关键点坐标矩阵输入第二多层感知器,预测得到每一帧图像头部关键点坐标矩阵及上半身关键点坐标矩阵整体位移; 基于每一帧图像头部位置预测坐标和每一帧图像头部关键点坐标矩阵及上半身关键点坐标矩阵整体位移,得到每一帧图像整体预测坐标; 训练语音内容矩阵与头部位置预测坐标映射关系过程中,使用的语音内容编码器和第一多层感知器可预先基于采集的视频数据同步训练得到,训练过程中采用的最小化损失函数L c 如下: ; 式中,表示第i个头部关键点在第t帧图像中预测坐标位置,表示第i个头部关键点在第t帧图像中实际坐标位置,表示权重系数,表示的图形拉普拉斯坐标,表示图形拉普拉斯坐标,N表示头部关键点总数,T表示图像总帧数,表示L2范数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长城信息股份有限公司,其通讯地址为:410100 湖南省长沙市长沙经济技术开发区东3路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。