一种语音驱动的全身动作生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：天津大学

摘要：本发明公开了一种语音驱动的全身动作生成方法，涉及三维人体动作生成技术领域。鉴于脸部动作与音频密切相关，而身体姿势与音频的相关性相对较小，本发明分别生成脸部和身体的动作，在脸部动作生成方面，设计了基于编‑解码器的端到端网络，在身体动作生成方面，设计了基于向量量化变分自动编码器VQ‑VAE和保留网络RetNet的两阶段网络，为全身不同部位设计独立的运动生成网络，最大程度满足了整体动作生成的需求；针对现有方法生成的身体动作存在不连续、不真实的问题，提出了结合SMPL‑X人体网格表面曲面点和内部关节点的混合点表示法，融合了全局约束和局部细节，使生成的结果更加合理；设计了运动表示转换网络，可将混合点表示转换为SMPL‑X轴角表示以提供更通用的运动表示；为了提高生成结果的多样性，引入了对比运动学习法。

主权项：1.一种语音驱动的全身动作生成方法，其特征在于，包括如下步骤：S1、对公共数据集进行数据预处理，使用SMPL-X模型对动作序列进行建模，提取对应的关节点以及下采样表面点的三维位置；对原始音频进行特征提取，包括MFCC特征和WavLM特征；将语音特征和对应的运动表示组成数据对进行存储；S2、对于语音驱动的脸部动作生成任务，采用编-解码器架构，将音频的WavLM特征与说话人的独热编码信息融合作为输入，编码器将融合特征编码成潜在空间的表示，之后解码器将该表示解码为对应的脸部运动序列；S3、对于语音驱动的身体动作生成任务，将代表身体自由度全局约束的下采样表面点与代表身体细粒度细节的关节点的三维位置组合起来作为运动序列的表示形式；利用向量量化变分自动编码器实现对运动序列的重建，具体包括如下内容：首先将混合点表示的运动序列通过编码器映射到离散的低维潜在空间中，实现对运动序列的编码；然后利用量化器将编码后的潜在特征映射到最近的码本向量上；最后通过解码器将量化后的特征解码回原始的运动序列；S4、将原始运动序列在S3中低维空间编码的码本索引进行随机掩码处理后与音频的低层次特征以及说话人的标识编码信息进行融合，输入到保留网络中，自回归地生成运动序列的索引；将索引再输入到S3中的量化器中得到量化特征，通过解码器解码，获得混合点表示的运动序列；同时基于索引对应的量化特征，引入对比运动学习法以提高生成结果的多样性；S5、设计一个运动表示转换网络以高效地提供通用的输出表示，将运动序列的混合点表示作为输入，输出对应的SMPL-X轴角表示。

全文数据：

权利要求：

百度查询：天津大学一种语音驱动的全身动作生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种双推杆固定可调式光伏支架

下一篇：可隐藏式转向系统

相关技术

一种双推杆固定可调式光伏支架

可隐藏式转向系统

一种红外水平仪的放置底座

一种畜牧用防疫架

一种可控流量的自动倒袋装置

一种体外诊断试剂盒

一种实验动物饲养笼具用进食系统

新型弹簧球铰支座

一种伸缩万向联轴器

一种新型高防潮纤维板

一种预制菜保鲜运输箱

一种基于双边模糊集的三支决策疾病分类方法及装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种语音驱动的全身动作生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务