一种基于多模态特征融合的视频分类方法、装置及介质

导航：龙图腾网> 最新专利技术> 一种基于多模态特征融合的视频分类方法、装置及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明属于视频分类技术领域，涉及一种基于多模态特征融合的视频分类方法、装置及介质；将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机，输出初始融合特征矩阵；将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行中期融合；将第L个自对齐融合层输出的目标图像特征矩阵中的clstoken向量、目标音频特征矩阵中的clstoken向量和融合特征矩阵拼接后，进行后期融合，并输入至第三多层感知机，从而对待分类视频进行分类，本申请提供的视频分类方法通过多阶段特征融合充分融合了不同模态的特征信息，提高了视频分类结果准确性。

主权项：1.一种基于多模态特征融合的视频分类方法，其特征在于，包括：将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机，输出初始融合特征矩阵；将所述图像特征矩阵、所述音频特征矩阵和所述初始融合特征矩阵输入至沿正传播方向依次串联的L个自对齐融合层进行融合；其中，第l个自对齐融合层对输入特征矩阵进行融合的步骤包括：将第l-1个自对齐融合层输出的融合特征矩阵输入至第二多层感知机，得到第l-1个自对齐融合层的目标融合特征矩阵；将所述图像特征矩阵和第l-1个自对齐融合层输出的目标图像特征矩阵输入至第一自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标图像特征矩阵进行更新；将更新后的第l-1个自对齐融合层输出的目标图像特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第一编码器，输出第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵；将所述音频特征矩阵和第l-1个自对齐融合层输出的目标音频特征矩阵输入至第二自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标音频特征矩阵进行更新；将更新后的第l-1个自对齐融合层输出的目标音频特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第二编码器，输出第l个自对齐融合层的目标音频特征矩阵和第二融合特征矩阵；对第一融合特征矩阵和第二融合特征矩阵求平均，得到第l个自对齐融合层的融合特征矩阵；其中，l∈[1,L]，当l＝1时，第l-1个自对齐融合层输出的目标图像特征矩阵为所述图像特征矩阵，第l-1个自对齐融合层输出的目标音频特征矩阵为所述音频特征矩阵，第l-1个自对齐融合层输出的融合特征矩阵为所述初始融合特征矩阵；将第L个自对齐融合层输出的目标图像特征矩阵中的clstoken向量、目标音频特征矩阵中的clstoken向量和融合特征矩阵拼接并输入至第三多层感知机，输出待分类视频的分类结果。

全文数据：

权利要求：

百度查询：江南大学一种基于多模态特征融合的视频分类方法、装置及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于人体运动信号多重监测的表皮传感器及其制备方法

下一篇：高压环路互锁系统、控制方法及电动汽车

相关技术

用于人体运动信号多重监测的表皮传感器及其制备方法

高压环路互锁系统、控制方法及电动汽车

消息通知方法、计算设备及计算机可读存储介质

一种二胺、聚酰胺酸、聚酰亚胺、液晶取向剂及液晶取向膜

一种电缆插接套管打磨修复装置

一种列车自主运行控制系统、方法、设备及介质

一种水利水电施工工程用供料装置

多层包覆富锂锰正极材料及其制备方法、正极片和电池

基于ODDM调制的MIMO系统信道估计方法和装置

基于GPT的加弹机数字孪生机理模型构建方法及系统

一种智慧睡眠监控装置及系统

一种大承重的手术室机械臂

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多模态特征融合的视频分类方法、装置及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务