一种基于隐音素检索的数字人口型多样性增强方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学(深圳)高等研究院

摘要：本发明属于数字人口型动画合成技术领域，具体涉及一种基于隐音素检索的数字人口型多样性增强方法，用以增强数字人口型动画的真实性和多样性。具体而言，在传统的音素‑视素匹配方案中，由于音素和视素的类别数量受限于人为定义，导致从语音中提取的音素无法充分捕捉发音过程中的细微动态变化，进而影响了口型动画的自然流畅性。为了克服这一局限，本发明采用深度学习技术，对数字人的音视频素材进行预处理、特征提取，并构建了一个隐音素‑视素库。在实时交互中，通过音频隐音素的检索和匹配，实现了数字人口型动画的逼真和连贯性。本发明的优势在于其能够不断优化迭代，提高口型动画的连贯性和真实感。

主权项：1.一种基于隐音素检索的数字人口型多样性增强方法，其特征在于，包括以下步骤：a数据预处理步骤，对已有数字人说话视频中的音频与视频数据进行预处理，为步骤b提供预处理后的音频和视频数据；b特征提取步骤，利用深度音频特征编码器对步骤a中预处理后的音频数据进行特征提取，生成特征向量，生成的特征向量作为步骤c的输入；c隐音素生成步骤，使用聚类算法对步骤b中提取的音频特征向量进行聚类，生成代表不同隐音素的中心特征向量，生成的隐音素用于步骤d中的隐音素-视素库构建；d隐音素-视素库构建步骤，将步骤c生成的隐音素与对应的视频图片帧关联，形成一个包含多种发音口型的视素图库，构建的库为步骤e提供隐音素和视素图；e音频的隐音素检索步骤，在数字人与用户实时交互过程中，将音频片段通过深度音频特征编码器转换为特征向量，并与步骤d构建的隐音素集合计算距离或相似度，检索出最匹配的视素口型图片序列，检索的结果用于步骤f；f视素图匹配步骤，根据步骤e检索到的隐音素口型图片序列，从步骤d构建的库中匹配相应的视素图，匹配的视素图为步骤g提供口型序列；g口型序列合成步骤，按照时序顺序组合步骤f中匹配的视素图，生成连贯的数字人口型动画，合成的动画为步骤h提供基础；h动态匹配机制步骤，在实时音频处理过程中，动态调整步骤d中的隐音素和视素数量和匹配关系以优化口型动画表现力，步骤h的调整依据步骤i中反馈的交互体验；i持续优化与迭代步骤，根据数字人的发音风格和真实交互体验，不断调整隐音素和视素的数量，提升系统的适应性和性能，步骤i的反馈循环作用于步骤c至步骤h。

全文数据：

权利要求：

百度查询：电子科技大学(深圳)高等研究院一种基于隐音素检索的数字人口型多样性增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可升降的计算机信息技术用设备

下一篇：一种再生资源回收装置

相关技术

一种可升降的计算机信息技术用设备

一种再生资源回收装置

一种小导管余料自动对焊设备

环保可降解梭织双面绒面料混纺纤维丝复合机构

一种服装生产打扣限位装置

一种多功能护理床

一种带有防护外壳的镍氢电池组

远程水位监测仪

一种电凝冲吸器

氢燃料电池处理系统

一种便于升降的一体机

一种废水池养鱼鱼池

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于隐音素检索的数字人口型多样性增强方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务