南京理工大学李泽超获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利一种基于多模态融合的动作识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115205979B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210960093.7,技术领域涉及:G06V40/20;该发明授权一种基于多模态融合的动作识别方法及系统是由李泽超;潘礼勇设计研发完成,并于2022-08-11向国家知识产权局提交的专利申请。
本一种基于多模态融合的动作识别方法及系统在说明书摘要公布了:本发明公开了一种基于多模态融合的动作识别方法及系统。该方法包括:从动作视频中提取视觉模态数据和听觉模态数据;对视觉模态数据和听觉模态数据进行预处理,得到视觉模态浅层Token序列和听觉模态浅层Token序列;将视觉模态浅层Token序列输入至视觉特征提取网络中,得到视觉模态深度Token序列;将听觉模态浅层Token序列输入至听觉特征提取网络中,得到听觉模态深度Token序列;将视觉模态深度Token序列和听觉模态深度Token序列合并,得到合并后的Token序列;将合并后的Token序列输入至特征融合网络,得到融合交互后的Token序列;将融合交互后的Token序列输入至全连接层,得到动作分类结果。本发明相比于现有的方法识别准确率更高,而且计算消耗更低。
本发明授权一种基于多模态融合的动作识别方法及系统在权利要求书中公布了:1.一种基于多模态融合的动作识别方法,其特征在于,包括: 从动作视频中提取视觉模态数据和听觉模态数据; 对所述视觉模态数据和所述听觉模态数据进行预处理,得到视觉模态浅层Token序列和听觉模态浅层Token序列; 将所述视觉模态浅层Token序列输入至视觉特征提取网络中,得到视觉模态深度Token序列; 将所述听觉模态浅层Token序列输入至听觉特征提取网络中,得到听觉模态深度Token序列; 将所述视觉模态深度Token序列和所述听觉模态深度Token序列合并,得到合并后的Token序列; 将所述合并后的Token序列输入至特征融合网络,得到融合交互后的Token序列;具体包括:将所述视觉模态深度Token序列中的分类向量进行合并以及将所述视觉模态深度Token序列中分类向量以外的部分进行合并,得到合并后的视觉模态深度Token序列;将所述听觉模态深度Token序列中的分类向量进行合并以及将所述听觉模态深度Token序列中分类向量以外的部分进行合并,得到合并后的听觉模态深度Token序列;将所述合并后的视觉模态深度Token序列以及所述合并后的听觉模态深度Token序列,进行合并得到合并后的Token序列;其中,特征融合网络中包括Token选择模块,Token选择模块是利用跨模态的注意力机制去选择并组合的; 将所述融合交互后的Token序列输入至全连接层,得到动作分类结果; 其中,在将所述视觉模态浅层Token序列输入至视觉特征提取网络中,以及将所述听觉模态浅层Token序列输入至听觉特征提取网络中之前,还包括: 分别在所述视觉模态浅层Token序列以及所述听觉模态浅层Token序列前设置一个分类向量,并将所述分类向量进行移动。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫200号南京理工大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。