买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学;上海人工智能创新中心
摘要:本发明公开了一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统,属于生成式人工智能领域。所述方法包括:获取舞蹈视频和对应的背景音乐组合作为训练集,分别通过跨模态双向协同表征变分自编码器获取低维嵌入特征向量序列;构建并训练基于Transformer架构的扩散模型以学习视听舞蹈数据的数据分布;利用训练好的模型再结合提出的无分类器引导采样生成对应的低维嵌入特征向量序列;最后通过对应的解码器实现视听舞蹈生成任务。本发明通过引入在低维嵌入空间的跨模态协同表征学习和改进的以注意力机制为主架构的扩散模型,实现了高质量、高匹配度、长序列的视听舞蹈生成。
主权项:1.一种基于扩散模型和跨模态协同的视听舞蹈生成方法,其特征在于,包括如下步骤:1获取舞蹈视频和与舞蹈视频对应的音频数据,针对音频数据提取音频梅尔频谱序列;针对舞蹈视频中的每帧图像,提取人体姿态运动关节点,组成姿态运动序列;2构建音频部分的变分自编码器和姿态运动部分的变分自编码器,所述变分自编码器均由编码器和解码器构成;3将音频梅尔频谱序列输入音频部分的变分自编码器,通过变分自编码器重构损失训练音频部分的变分自编码器,固定训练好的变分自编码器;4将音频梅尔频谱序列输入训练好的音频部分的变分自编码器,姿态运动序列输入姿态运动部分的变分自编码器,分别输出姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征,对两个模态的低维嵌入特征进行跨模态知识协同对比学习以实现对齐,根据对齐后的低维嵌入特征计算对比学习损失函数;通过变分自编码器重构损失以及对比学习损失函数训练姿态运动部分的变分自编码器;5构建基于Transformer架构的扩散模型;利用训练好的两个变分自编码器获取姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征,利用获取的低维嵌入特征训练基于Transformer架构的扩散模型;6基于训练好的基于Transformer架构的扩散模型,结合无分类器引导采样策略实现基于人体运动姿态的音频生成或基于音频的人体运动姿态生成。
全文数据:
权利要求:
百度查询: 浙江大学 上海人工智能创新中心 一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。