长沙理工大学周庆华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉长沙理工大学申请的专利一种提高视频质量的语音驱动方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119132330B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411043262.6,技术领域涉及:G10L21/055;该发明授权一种提高视频质量的语音驱动方法及系统是由周庆华;张龙;唐帅;陈云翔设计研发完成,并于2024-07-31向国家知识产权局提交的专利申请。
本一种提高视频质量的语音驱动方法及系统在说明书摘要公布了:本发明公开了一种提高视频质量的语音驱动方法及系统,方法包括:对包含中文视频的人脸说话视频进行预处理,得到人脸视频数据集;使用人脸视频数据集预训练唇形同步鉴别器;重构生成器的损失函数与网络架构,使用人脸视频数据集训练生成器,训练过程中引入预训练后的唇形同步鉴别器,交替优化生成器和唇形同步鉴别器来提升训练效果,使得训练后的生成器生成高质量高同步率的语音驱动人脸视频。本发明可以对唇形区域画面模糊等质量问题实现有效改善,生成清晰度更高的人脸视频。
本发明授权一种提高视频质量的语音驱动方法及系统在权利要求书中公布了:1.一种提高视频质量的语音驱动方法,其特征在于,包括以下步骤: 对包含中文视频的人脸说话视频进行预处理,得到人脸视频数据集; 使用人脸视频数据集预训练唇形同步鉴别器,所述唇形同步鉴别器包括面部编码器,所述面部编码器使用堆叠的卷积模块对输入特征图进行特征提取,其中卷积模块1采用7x7卷积核将通道数增加,特征图尺寸不变,卷积模块2将特征图宽度缩小12,通道数翻倍,卷积模块3至卷积模块8逐模块将特征图尺寸缩小12,同时通道数逐层翻倍至卷积模块7后不变,卷积模块3至卷积模块8使用堆叠的3x3卷积核来捕捉更高级和全局的特征;卷积模块9通过0填充进一步缩放特征图;最后一个卷积层将通道数压缩,并应用Sigmoid作为激活函数输出二分类结果; 重构生成器的损失函数与网络架构,重构的生成器损失函数如下: 其中,代表同步损失函数,代表感知损失函数,代表重构损失函数,为多尺度结构相似性损失函数,分别为超参数权重; 重构的生成器网络架构包括面部图像编码器,所述面部图像编码器使用堆叠的卷积层子模块对拼接的图像进行特征提取,其中子模块1使用7x7卷积核将通道数增加;子模块2至子模块8逐步将空间尺寸缩小2倍、通道数增加2倍;子模块9通过0填充进一步对特征图进行缩放,子模块2至子模块8分别使用堆叠的3x3卷积核并引入残差连接,以帮助梯度传播和学习复杂特征; 重构的生成器网络架构还包括解码器,所述解码器使用堆叠的反卷积模块层逐步将输入的特征图进行上采样操作,以恢复原始面部图像的尺寸,其中反卷积模块层1至反卷积模块层7均首先通过反卷积层对特征图进行上采样操作,特征图尺寸翻倍,通道数减少,再通过堆叠的3x3卷积层进行特征图处理,所述解码器的输出模块将通道数进一步减少,并通过Tanh激活函数将输出限制在指定范围内; 使用人脸视频数据集训练生成器,训练过程中引入预训练后的唇形同步鉴别器,交替优化生成器和唇形同步鉴别器来提升训练效果,使得训练后的生成器生成高质量高同步率的语音驱动人脸视频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长沙理工大学,其通讯地址为:410114 湖南省长沙市天心区万家丽南路二段960号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励