Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中兴协力(山东)数字科技集团有限公司郑伟获国家专利权

中兴协力(山东)数字科技集团有限公司郑伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中兴协力(山东)数字科技集团有限公司申请的专利一种基于音频、图像和文本的多模态音乐短片生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117412144B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311456758.1,技术领域涉及:H04N21/81;该发明授权一种基于音频、图像和文本的多模态音乐短片生成方法是由郑伟;董文轩;陈亮;陈彦彬;姚玉兵;郭盛;费立伟设计研发完成,并于2023-11-03向国家知识产权局提交的专利申请。

一种基于音频、图像和文本的多模态音乐短片生成方法在说明书摘要公布了:本发明属于音乐短片生成应用技术领域,尤其涉及一种基于音频、图像和文本的多模态音乐短片生成方法。本发明提供一种基于音频、图像、文本多模态的音乐短片生成方法,构建了文本编码结构、音频编码结构、TS模型、MVdiffusion模型训练架构以及MVdiffusion模型测试架构。通过搭建的多模态深度学习模型,实现更全面、综合的多模态音乐短片生成能力,保证了各个模态之间的一致性和同步性,能够同时处理音频、图像和文本等多个相关任务,从而提高对音乐短片的全面理解和创造能力。

本发明授权一种基于音频、图像和文本的多模态音乐短片生成方法在权利要求书中公布了:1.一种基于音频、图像和文本的多模态音乐短片生成方法,其特征在于,包括如下步骤:S1、数据获取,S2、搭建TS模型,S3、训练、测试TS模型,S4、搭建MVdiffusion模型,S5、训练、测试MVdiffusion模型,所述步骤S1的具体操作方法为:S1-1、获取开源的音乐短片数据,依据时间将每句音乐文及其配乐配图进行分割,得到文本、音频和图像数据,同时保证文本、音频和图像三者间的对齐关系;S1-2、选取S1-1中的文本、音频数据,构建数据集,将数据集以8:2的比例划分,用于训练、测试TS模型,选取S1-1中的音频、文本、图像数据,构建数据集,将数据集D以8:2的比例划分,用于训练、测试MVdiffusion模型;所述步骤S2的具体操作方法为:S2-1、搭建文本编码部分,对文本描述进行Token分词,后对其进行Token编码和位置编码,采用CLIP文本编码器作为主体,同时冻结CLIP文本编码器中的预训练权重,最终得到文本的隐空间特征向量Vt,t表示向量维度;S2-2、搭建音频编码部分,对音频进行Patch音频切片,后对其进行Patch编码和位置编码,采用4个TransformerEncode构建音频编码器核心,最终得到音频的隐空间特征向量Vs,s表示向量维度;S2-3、同时,保证音频和文本编码器输出的隐空间特征向量Vs和Vt的维度相同,即;S2-4、分别对音频和文本编码器输出的隐空间特征向量进行统一化,定义为 其中,为音频的统一化特征向量,为文本的统一化特征向量,为Vs的转置,为Vt的转置,将两者对数转化后的相似度作为TS模型损失函数,公式为: 其中,为音频的统一化特征向量,为文本的统一化特征向量,得到文本和音频隐空间映射模型;所述S3步骤的具体操作方法为:S3-1、将数据中的训练集送入模型,训练方式学习率变化策略采用warmup,训练100个轮次,最终获得音频与文本之间的映射关系,得到训练好的音频文本隐空间映射模型;S3-2、将数据数据中的测试集送入模型,验证音频与文本之间的映射关系准确性,将符合要求的音频编码权重进行保存,得到通用的音频编码器;所述S4步骤的具体操作方法为:S4-1、构建MVdiffusion训练阶段模型,对音频、图像、文本数据进行向量化处理,音频经由音频编码器得到音频向量,图像经由VAE编码器得到图像潜空间向量,文本经由CLIP文本编码器得到文本向量;S4-2、向S4-1所述图像潜空间向量添加噪声,噪声需要符合高斯分布,用于构建扩散模型所需数据,后将三模态向量送入Unet进行训练,预测噪声分布;S4-3、将预测得到的噪声与真实噪声进行对比,采用加权KL散度和MSE作为损失函数,用于衡量生成样本分布与真实数据分布之间的差异,衡量生成样本与真实数据之间的差异,损失函数公式为: 其中,为真实样本数据,为生成样本数据,N为样本数据总量,i为样本标号,,为动态权重,;S4-4、构建MVdiffusion测试阶段模型,与训练阶段模型的区别在于将Unet的图像潜空间向量替换为噪声,Unet可多次迭代,输出的潜空间向量需要通过VAE解码器进行图像还原,最终得到MVdiffusion测试阶段模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中兴协力(山东)数字科技集团有限公司,其通讯地址为:250000 山东省济南市中国(山东)自由贸易试验区济南片区虎山北路1001号智能传感器(济南)创新中心4-7;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。