恭喜浙江大学钟添芸获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江大学申请的专利一种基于多参考帧与风格可控的唇形同步方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119815096B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510274090.1,技术领域涉及:H04N21/43;该发明授权一种基于多参考帧与风格可控的唇形同步方法和系统是由钟添芸;赵洲设计研发完成,并于2025-03-10向国家知识产权局提交的专利申请。
本一种基于多参考帧与风格可控的唇形同步方法和系统在说明书摘要公布了:本发明公开了一种基于多参考帧与风格可控的唇形同步方法和系统,属于视频生成领域。获取说话人视频数据和驱动音频数据;从视频中随机选取两组视频帧分别作为第一多参考图和第二多参考图,将参考图的驱动关键点视为参考关键点;从视频中提取说话人的唇部运动风格特征,结合驱动音频特征、第一多参考图的参考关键点,利用从稀疏到精细的音频到关键点模块预测精细关键点;结合第二多参考图及其参考关键点、由音频到关键点模块预测的精细关键点,在关键点到视频模块中引入多尺度聚合比例生成唇形同步帧;在生成任务中,可以从原始视频提取说话人的唇部运动风格特征或者直接给定说话人的唇部运动风格特征,实现风格可控的唇形同步。
本发明授权一种基于多参考帧与风格可控的唇形同步方法和系统在权利要求书中公布了:1.一种基于多参考帧与风格可控的唇形同步方法,其特征在于,包括以下步骤: S1,获取说话人视频数据和驱动音频数据,提取各音频帧的驱动音频特征和各视频帧的驱动关键点; 所述的驱动关键点包括3D驱动关键点和2D驱动关键点; S2,从视频中随机选取两组视频帧分别作为第一多参考图和第二多参考图,将参考图的驱动关键点视为参考关键点; 所述的参考关键点包括3D参考关键点和2D参考关键点; S3,从视频中提取说话人的唇部运动风格特征,结合驱动音频特征、第一多参考图的参考关键点,利用从稀疏到精细的音频到关键点模块预测精细关键点; 所述的音频到关键点模块预测得到的精细关键点为精细2D驱动关键点; 所述的唇部运动风格特征为标量,由唇部张幅和唇部速度构成;从视频中提取说话人的唇部运动风格特征的方法如下: 根据视频各帧图像中说话人的3D驱动关键点中筛选唇部关键点,包括上唇关键点与下唇关键点; 利用上唇关键点与下唇关键点的y坐标差的平均值表征唇部张幅; 利用上唇关键点与下唇关键点的y坐标差绝对值的时序一阶平均差分表征唇部速度; S4,结合第二多参考图及其参考关键点、由音频到关键点模块预测的精细关键点,在关键点到视频模块中引入多尺度聚合比例生成唇形同步帧; 步骤S4包括: S4-1,根据每一帧第二参考图的2D参考关键点和当前帧的精细2D驱动关键点,对每一帧第二参考图特征图进行扭曲,生成多扭曲特征图; S4-2,利用当前帧的精细2D驱动关键点、全部第二参考图的2D参考关键点和多扭曲特征图,计算多扭曲特征图的多尺度聚合比例,所述的多尺度聚合比例包括帧尺度比例和像素尺度比例;利用多尺度聚合比例聚合多扭曲特征图的纹理信息得到聚合特征图; S4-3,对聚合特征图解码得到生成图像,利用原始帧图像的驱动关键点生成平滑下半脸掩码,利用平滑下半脸掩码融合生成图像的说话人下半脸与原始帧图像,得到当前帧的唇形同步帧图像; S4-4,重复S4-1至S4-3,利用下一帧精细2D驱动关键点生成下一帧的唇形同步帧图像,直至遍历全部精细2D驱动关键点的帧数; S5,根据音频到关键点模块的预测结果和关键点到视频模块的生成结果计算损失并更新模块; S6,给定驱动音频和原始视频,从原始视频提取说话人的唇部运动风格特征或者直接给定说话人的唇部运动风格特征,利用训练后的音频到关键点模块和关键点到视频模块生成与给定驱动音频唇形同步的合成视频,完成唇形同步任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。