一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

导航：龙图腾网> 最新专利技术> 一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学;上海人工智能创新中心

摘要：本发明公开了一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统，属于生成式人工智能领域。所述方法包括：获取舞蹈视频和对应的背景音乐组合作为训练集，分别通过跨模态双向协同表征变分自编码器获取低维嵌入特征向量序列；构建并训练基于Transformer架构的扩散模型以学习视听舞蹈数据的数据分布；利用训练好的模型再结合提出的无分类器引导采样生成对应的低维嵌入特征向量序列；最后通过对应的解码器实现视听舞蹈生成任务。本发明通过引入在低维嵌入空间的跨模态协同表征学习和改进的以注意力机制为主架构的扩散模型，实现了高质量、高匹配度、长序列的视听舞蹈生成。

主权项：1.一种基于扩散模型和跨模态协同的视听舞蹈生成方法，其特征在于，包括如下步骤：1获取舞蹈视频和与舞蹈视频对应的音频数据，针对音频数据提取音频梅尔频谱序列；针对舞蹈视频中的每帧图像，提取人体姿态运动关节点，组成姿态运动序列；2构建音频部分的变分自编码器和姿态运动部分的变分自编码器，所述变分自编码器均由编码器和解码器构成；3将音频梅尔频谱序列输入音频部分的变分自编码器，通过变分自编码器重构损失训练音频部分的变分自编码器，固定训练好的变分自编码器；4将音频梅尔频谱序列输入训练好的音频部分的变分自编码器，姿态运动序列输入姿态运动部分的变分自编码器，分别输出姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征，对两个模态的低维嵌入特征进行跨模态知识协同对比学习以实现对齐，根据对齐后的低维嵌入特征计算对比学习损失函数；通过变分自编码器重构损失以及对比学习损失函数训练姿态运动部分的变分自编码器；5构建基于Transformer架构的扩散模型；利用训练好的两个变分自编码器获取姿态运动序列的低维嵌入特征和音频梅尔频谱序列的低维嵌入特征，利用获取的低维嵌入特征训练基于Transformer架构的扩散模型；6基于训练好的基于Transformer架构的扩散模型，结合无分类器引导采样策略实现基于人体运动姿态的音频生成或基于音频的人体运动姿态生成。

全文数据：

权利要求：

百度查询：浙江大学上海人工智能创新中心一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种空调柜机接线结构及空调器

下一篇：一种蛋白粉生产用过滤除杂装置

相关技术

一种空调柜机接线结构及空调器

一种蛋白粉生产用过滤除杂装置

一种撕膜机构及炒菜机

一种石英砂酸洗设备

一种蝇防治用诱杀装置

3D打印内支撑条去除工具

一种用于辅助去腥的蒸煮装置

一种肉类风味制品加工装置

一种全自动胶塞清洗机

一种无框玻璃门密封条

适用于电石法PVC生产中无汞触媒的粉尘捕捉装置

一种园林苗木用药剂喷涂装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于扩散模型和跨模态协同的视听舞蹈生成方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务