买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯科技(深圳)有限公司
摘要:本公开提供一种伴随音频生成方法、相关装置和介质,方法包括:提取目标视频的视觉特征,并获取目标视频的目标声音事件语义特征;将视觉特征输入到扩散模型,扩散模型包括用于根据视觉特征对待扩散音频特征进行扩散处理的编码层;基于目标声音事件语义特征生成与编码层对应的第一调整特征,并基于第一调整特征调整编码层的第一输出,得到第二输出,并基于第二输出生成目标视频的伴随音频,以使伴随音频中包含与目标声音事件语义特征对应的音频片段。本公开能够使得基于视频所生成的音频中包含与视频中所有声音事件对应的音频片段,从而生成与视频在语义上能准确对齐的音频。本公开能应用于自动配音、文生视频配音等场景。
主权项:1.一种伴随音频生成方法,其特征在于,所述方法包括:提取目标视频的视觉特征,并获取所述目标视频的目标声音事件语义特征;将所述视觉特征输入到扩散模型,所述扩散模型包括用于根据所述视觉特征对待扩散音频特征进行扩散处理的编码层;基于所述目标声音事件语义特征生成与所述编码层对应的第一调整特征,并基于所述第一调整特征调整所述编码层的第一输出,得到第二输出,并基于所述第二输出生成所述目标视频的伴随音频,以使所述伴随音频中包含与所述目标声音事件语义特征对应的音频片段;其中,所述基于所述目标声音事件语义特征生成与所述编码层对应的第一调整特征,包括:获取所述扩散模型的第一个编码层的初始输入;对所述目标声音事件语义特征进行零卷积处理,并将零卷积处理后的所述目标声音事件语义特征和所述初始输入叠加,得到叠加后目标声音事件语义特征;将所述叠加后目标声音事件语义特征输入对应的语义特征适配器,并对所述语义特征适配器的输出进行零卷积处理,得到所述第一调整特征。
全文数据:
权利要求:
百度查询: 腾讯科技(深圳)有限公司 伴随音频生成方法、相关装置和介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。