Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西北工业大学徐韬获国家专利权

西北工业大学徐韬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西北工业大学申请的专利基于潜空间特征融合的语音驱动数字人口型生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120876687B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511365915.7,技术领域涉及:G06T13/40;该发明授权基于潜空间特征融合的语音驱动数字人口型生成方法是由徐韬;覃一航;王纪元;邓义兴;尹欣玥;张芸萱设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。

基于潜空间特征融合的语音驱动数字人口型生成方法在说明书摘要公布了:本发明公开了一种基于潜空间特征融合的语音驱动数字人口型生成方法,属于人工智能与图像合成技术领域;主要提高语音驱动数字人口型生成图像的质量和时序连贯性;本发明的方案为利用语音音频和视频图像分别进行模态编码后,在图像编码器构建的潜空间中通过语音特征引导图像重建过程,生成与语音特征一致的口型变化图像帧序列;实现了从用户语音输入到数字人响应的完整流程,增强了数字人在人机交互过程中的智能化表达能力,从而实现更自然、更智能的数字人语音表达。

本发明授权基于潜空间特征融合的语音驱动数字人口型生成方法在权利要求书中公布了:1.基于潜空间特征融合的语音驱动数字人口型生成方法,其特征在于,包括如下步骤: 步骤S1:构建数据集; 收集人脸语音视频,对人脸语音视频进行处理,获得原始语音音频和原始视频文件; 对原始语音音频进行语音预处理,获得语音特征; 对原始视频文件进行图像预处理,获得原始视频文件中每帧图像的人脸边界框信息、每帧图像的遮罩图像和每帧图像的初始潜空间特征; 以所有的语音特征、所有帧图像的人脸边界框信息、所有帧图像的遮罩图像和所有帧图像的初始潜空间特征为基础,构建数据集; 步骤S2:构建潜空间融合模块;所述潜空间融合模块的输出为图像语音跨模态融合特 征;使用训练集对潜空间融合模块进行训练,当潜空间融合模块的损失函数在多 个迭代周期内区域稳定,不再出现大幅波动后,则视为潜空间融合模块训练完成,获得最优 的潜空间融合模块; 步骤S3:将待处理的人脸语音视频进行处理,分别获得待处理语音音频和待处理视频文件;对待处理语音音频进行语音预处理获得待处理语音特征;对待处理视频文件进行图像预处理,获得待处理视频文件中每帧图像的人脸边界框信息、待处理视频文件中每帧图像的遮罩图像和待处理视频文件中每帧图像的初始潜空间特征;将待处理语音特征、待处理视频文件中每帧图像的人脸边界框信息、待处理视频文件中每帧图像的遮罩图像和待处理视频文件中每帧图像的初始潜空间特征输入最优的潜空间融合模块,获得待处理人脸语音视频的图像语音跨模态融合特征;将待处理人脸语音视频的图像语音跨模态融合特征输入图像解码器,获得待处理人脸语音视频的图像帧;将待处理人脸语音视频的图像帧使用图像融合方法进行处理,获得待处理人脸语音视频的语音驱动口型变化的数字人视频。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。