西安交通大学杜少毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利一种基于跨模态时空联合学习的多模态视频目标识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120236233B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510679690.6,技术领域涉及:G06V20/40;该发明授权一种基于跨模态时空联合学习的多模态视频目标识别方法是由杜少毅;韩泓丞;王明豪;郭钦钵;张栋;李冰洁;王娟设计研发完成,并于2025-05-26向国家知识产权局提交的专利申请。
本一种基于跨模态时空联合学习的多模态视频目标识别方法在说明书摘要公布了:本发明属于多模态数据处理技术领域,涉及一种基于跨模态时空联合学习的多模态视频目标识别方法,包括:1、数据预处理;对两种模态视频进行预处理,增强数据稳定性;2、视觉特征提取;从每帧中提取低阶视觉特征,提取特征图;3、跨模态时空联合学习网络;构建跨时空联合学习网络,提取高阶特征并实现模态间融合;4、特征融合与目标识别;经过多层跨模态自注意力计算得到融合特征;压缩融合特征为特征向量,输出分类结果;本发明通过Patch数量维度拼接和跨模态定向注意力机制,不仅保留了模态独立性,还实现了精准的时空交互,降低了计算复杂度;本发明在特征融合效率和目标识别精度上进行改进,特别是在实时性要求高的场景中表现出色。
本发明授权一种基于跨模态时空联合学习的多模态视频目标识别方法在权利要求书中公布了:1.一种基于跨模态时空联合学习的多模态视频目标识别方法,其特征在于,包括以下步骤: 步骤1、数据预处理;将模态视频分别记为模态A和模态B,对两种模态视频进行预处理, 将模态视频每帧的空间分辨率统一调整,并将时间维度重采样至帧;通过归一化操作增 强数据稳定性; 步骤2、视觉特征提取;基于2D卷积神经网络的特征提取网络,从每帧中提取低阶视觉特征,对每一帧独立进行卷积操作,提取特征图; 步骤3、跨模态时空联合学习网络;构建基于3DTransformer的跨时空联合学习网络,提取高阶特征并实现模态间融合; 步骤4、特征融合与目标识别;经过多层跨模态自注意力计算得到融合特征;通过全局池化操作压缩融合特征为特征向量,再通过全连接层和Softmax函数输出分类结果; 所述步骤3具体包括以下分步骤; 步骤3-1、在Patch数量维度上拼接特征; 步骤3-2、在Patch数量维度拼接形成联合Token序列; 步骤3-3、设计跨模态定向注意力机制,提出注意力交互规则,对于模态A的第帧、第 个Patch的Query的注意力仅与模态B第帧的空间Key和Value交互,对于模态B的第帧、第个Patch的Query的注意力仅与模态A第帧的时序Key和Value交互; 步骤3-4、更新特征通过残差连接和层归一化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。