买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明属于视频分类技术领域,涉及一种基于多模态特征融合的视频分类方法、装置及介质;将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机,输出初始融合特征矩阵;将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合;将第L个自对齐融合层输出的目标图像特征矩阵中的clstoken向量、目标音频特征矩阵中的clstoken向量和融合特征矩阵拼接后,进行后期融合,并输入至第三多层感知机,从而对待分类视频进行分类,本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息,提高了视频分类结果准确性。
主权项:1.一种基于多模态特征融合的视频分类方法,其特征在于,包括:将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机,输出初始融合特征矩阵;将所述图像特征矩阵、所述音频特征矩阵和所述初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行融合;其中,第l个自对齐融合层对输入特征矩阵进行融合的步骤包括:将第l-1个自对齐融合层输出的融合特征矩阵输入至第二多层感知机,得到第l-1个自对齐融合层的目标融合特征矩阵;将所述图像特征矩阵和第l-1个自对齐融合层输出的目标图像特征矩阵输入至第一自对齐模块进行自对齐,以对第l-1个自对齐融合层输出的目标图像特征矩阵进行更新;将更新后的第l-1个自对齐融合层输出的目标图像特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第一编码器,输出第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵;将所述音频特征矩阵和第l-1个自对齐融合层输出的目标音频特征矩阵输入至第二自对齐模块进行自对齐,以对第l-1个自对齐融合层输出的目标音频特征矩阵进行更新;将更新后的第l-1个自对齐融合层输出的目标音频特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第二编码器,输出第l个自对齐融合层的目标音频特征矩阵和第二融合特征矩阵;对第一融合特征矩阵和第二融合特征矩阵求平均,得到第l个自对齐融合层的融合特征矩阵;其中,l∈[1,L],当l=1时,第l-1个自对齐融合层输出的目标图像特征矩阵为所述图像特征矩阵,第l-1个自对齐融合层输出的目标音频特征矩阵为所述音频特征矩阵,第l-1个自对齐融合层输出的融合特征矩阵为所述初始融合特征矩阵;将第L个自对齐融合层输出的目标图像特征矩阵中的clstoken向量、目标音频特征矩阵中的clstoken向量和融合特征矩阵拼接并输入至第三多层感知机,输出待分类视频的分类结果。
全文数据:
权利要求:
百度查询: 江南大学 一种基于多模态特征融合的视频分类方法、装置及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。