买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东城市建设职业学院
申请日:2024-12-25
公开(公告)日:2025-01-28
公开(公告)号:CN119383423A
专利技术分类:...内容授权[2011.01]
专利摘要:本发明涉及一种视频背景音乐生成方法、装置及存储介质,涉及视频处理技术领域。本申请将待处理的视频分解为目标视频图像帧集和目标视频原声序列,并分别提取目标文本描述序列和目标字幕序列;通过条件特征提取模块从目标视频图像帧集、目标视频原声序列、目标文本描述序列和目标字幕序列中分别提取时序的目标视频图像帧条件特征、目标视频原声条件特征、目标文本描述条件特征和目标字幕条件特征;通过背景音乐条件配置器将各条件特征处理成目标条件特征;预训练的音乐生成扩散模型将目标条件特征引入到各反向过程的潜空间特征中以生成背景音乐。
专利权项:1.一种视频背景音乐生成方法,其特征在于,包括:将待处理的视频分解为目标视频图像帧集和目标视频原声序列;通过提取视频图像帧集的文本描述序列的方法从目标视频图像帧集中提取目标文本描述序列;通过提取视频原声序列中语音对应的字幕序列的方法从目标视频原声序列中提取目标字幕序列,目标文本描述序列中的文本描述和目标视频图像帧集中相应的视频图像帧对齐,目标字幕序列和目标视频原声序列中相应的语音对齐;通过预训练的条件特征提取模块从目标视频图像帧集、目标视频原声序列、目标文本描述序列和目标字幕序列中分别提取时序的目标视频图像帧条件特征、目标视频原声条件特征、目标文本描述条件特征和目标字幕条件特征;用户根据需求通过背景音乐条件配置器选择待处理视频的各阶段的各类目标条件特征的组合、配置各类目标条件特征的权重;基于目标条件特征的组合、配置各类目标条件特征的权重进行条件特征融合最终得到符合用户需求的视频各个阶段的目标条件特征;利用预训练的音乐生成扩散模型对参考音乐的向量表示的潜空间特征进行正向高斯扩散,在反向过程中,音乐生成扩散模型通过预训练的Unet模型将目标条件特征引入到各反向过程的潜空间特征中得到背景音乐的潜空间特征,将背景音乐的潜空间特征解码得到背景音乐的向量表示;将背景音乐的向量表示还原为符合待处理视频内容的背景音乐。
百度查询: 山东城市建设职业学院 一种视频背景音乐生成方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。