首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

虚拟形象说话视频的合成方法、装置、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明涉及人工智能技术领域,公开了一种虚拟形象说话视频的合成方法、装置、设备及存储介质,用于在虚拟形象素材量少的情况下,提高视频合成精度。所述虚拟形象说话视频的合成方法包括:通过预先训练的虚拟形象语音生成模型对目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;通过预先训练的人物说话视频生成模型对目标文本音频和原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频;通过口型同步鉴别器和视觉质量鉴别器对初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;基于鉴别结果确定目标虚拟形象说话视频。此外,本发明还涉及区块链技术,目标虚拟形象说话视频可存储于区块链节点中。

主权项:1.一种虚拟形象说话视频的合成方法,其特征在于,所述虚拟形象说话视频的合成方法包括:获取待合成虚拟形象的虚拟形象音频样本和所述虚拟形象音频样本对应的文本信息,并初始化文本语音生成模型,所述文本语音生成模型包括读取器和神经网络声码器;对所述虚拟形象音频样本进行声码器特征提取,得到音频声码特征信息,并通过所述读取器对所述虚拟形象音频样本对应的文本信息进行声码器特征提取,得到文本声码特征信息;通过所述神经网络声码器对所述文本声码特征信息进行音频生成,得到目标样本音频;根据所述音频声码特征信息与所述文本声码特征信息之间的第一损失值和所述目标样本音频与所述虚拟形象音频样本之间的第二损失值,对所述文本语音生成模型进行多轮权重值的迭代更新,得到虚拟形象语音生成模型;获取说话人脸视频样本,并初始化生成网络对抗网络模型,所述生成网络对抗网络模型包括未训练的生成器、口型同步鉴别器和视觉质量鉴别器;从所述说话人脸视频样本中提取随机参考帧和样本音频,并通过所述未训练的生成器对所述随机参考帧和所述样本音频进行说话视频生成,得到初始说话视频;通过未训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频和所述说话人脸视频样本进行逐帧的口型同步性判别和视觉质量判别,得到第一判别结果;基于所述第一判别结果对未训练的口型同步鉴别器和视觉质量鉴别器进行多轮权重值的迭代更新,得到预先训练的口型同步鉴别器和视觉质量鉴别器;通过预先训练的口型同步鉴别器和视觉质量鉴别器对所述初始说话视频进行逐帧的口型同步性判别和视觉质量判别,得到第二判别结果,并通过所述第二判别结果对所述未训练的生成器进行多轮权重值的迭代更新,得到预先训练的生成器;基于所述预先训练的口型同步鉴别器和视觉质量鉴别器和所述预先训练的生成器,生成人物说话视频生成模型;接收虚拟形象说话视频合成请求,并通过所述虚拟形象说话视频合成请求从预置问答库中匹配目标答案文本;通过预先训练的虚拟形象语音生成模型中的读取器和神经网络声码器对所述目标答案文本进行待合成虚拟形象的文本语音生成,得到目标文本音频;获取所述待合成虚拟形象的原始图像,并通过预先训练的人物说话视频生成模型中的生成器对所述目标文本音频和所述原始图像进行说话人脸视频生成,得到初始虚拟形象说话视频,所述人物说话视频生成模型包括生成器、口型同步鉴别器和视觉质量鉴别器;通过所述口型同步鉴别器和所述视觉质量鉴别器对所述初始虚拟形象说话视频进行口型同步鉴别和视觉质量鉴别,得到鉴别结果;基于所述鉴别结果确定所述初始虚拟形象说话视频对应的目标虚拟形象说话视频。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 虚拟形象说话视频的合成方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。