买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学(深圳)高等研究院
摘要:本发明属于数字人口型动画合成技术领域,具体涉及一种基于隐音素检索的数字人口型多样性增强方法,用以增强数字人口型动画的真实性和多样性。具体而言,在传统的音素‑视素匹配方案中,由于音素和视素的类别数量受限于人为定义,导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化,进而影响了口型动画的自然流畅性。为了克服这一局限,本发明采用深度学习技术,对数字人的音视频素材进行预处理、特征提取,并构建了一个隐音素‑视素库。在实时交互中,通过音频隐音素的检索和匹配,实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代,提高口型动画的连贯性和真实感。
主权项:1.一种基于隐音素检索的数字人口型多样性增强方法,其特征在于,包括以下步骤:a数据预处理步骤,对已有数字人说话视频中的音频与视频数据进行预处理,为步骤b提供预处理后的音频和视频数据;b特征提取步骤,利用深度音频特征编码器对步骤a中预处理后的音频数据进行特征提取,生成特征向量,生成的特征向量作为步骤c的输入;c隐音素生成步骤,使用聚类算法对步骤b中提取的音频特征向量进行聚类,生成代表不同隐音素的中心特征向量,生成的隐音素用于步骤d中的隐音素-视素库构建;d隐音素-视素库构建步骤,将步骤c生成的隐音素与对应的视频图片帧关联,形成一个包含多种发音口型的视素图库,构建的库为步骤e提供隐音素和视素图;e音频的隐音素检索步骤,在数字人与用户实时交互过程中,将音频片段通过深度音频特征编码器转换为特征向量,并与步骤d构建的隐音素集合计算距离或相似度,检索出最匹配的视素口型图片序列,检索的结果用于步骤f;f视素图匹配步骤,根据步骤e检索到的隐音素口型图片序列,从步骤d构建的库中匹配相应的视素图,匹配的视素图为步骤g提供口型序列;g口型序列合成步骤,按照时序顺序组合步骤f中匹配的视素图,生成连贯的数字人口型动画,合成的动画为步骤h提供基础;h动态匹配机制步骤,在实时音频处理过程中,动态调整步骤d中的隐音素和视素数量和匹配关系以优化口型动画表现力,步骤h的调整依据步骤i中反馈的交互体验;i持续优化与迭代步骤,根据数字人的发音风格和真实交互体验,不断调整隐音素和视素的数量,提升系统的适应性和性能,步骤i的反馈循环作用于步骤c至步骤h。
全文数据:
权利要求:
百度查询: 电子科技大学(深圳)高等研究院 一种基于隐音素检索的数字人口型多样性增强方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。