武汉大学余伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利基于跨模态Transformer的视觉-音频多模态目标跟踪方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118378123B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410390051.3,技术领域涉及:G06F18/24;该发明授权基于跨模态Transformer的视觉-音频多模态目标跟踪方法及装置是由余伟;胡斐;王皓;彭晶晶;李石君;李志宇;匡瑞林;刘宇轩;刘梓轩;汪千一;万豪杰;郑皓杰;晋尧;曾宪泽;丁宁;李佳璇;陈博宇;李一帆;唐千千;李宇轩设计研发完成,并于2024-04-02向国家知识产权局提交的专利申请。
本基于跨模态Transformer的视觉-音频多模态目标跟踪方法及装置在说明书摘要公布了:本发明公开了一种基于跨模态Transformer的视觉‑音频多模态目标跟踪方法及装置,首先获取来自视觉和音频两种模态的信息tokens,并引入两种多模态特征对齐方法,以在多模态间特征提取和融合前优化两种模态的嵌入。输入编码器前,将对齐后的音频特征注入到搜索区图像和模板区图像的嵌入中,从而提高编码器的学习能力。随后,经过编码器层的处理,多模态之间的特征得到了充分的融合和学习。最终,采用分类和边界框回归的方法,利用最后一层编码器的输出来精准预测目标的坐标。本发明的多模态融合方法相较于单一模态具备更高的鲁棒性,并且能够提高系统对目标的感知能力,视觉和音频两者融合能够更好地捕捉目标的时空一致性,因此提高了跟踪的准确性。
本发明授权基于跨模态Transformer的视觉-音频多模态目标跟踪方法及装置在权利要求书中公布了:1.基于跨模态Transformer的视觉-音频多模态目标跟踪方法,其特征在于,包括:S1:输入搜索区图像、模板区图像、搜索区图像对应图像帧的音频片段以及模板区图像对应图像帧的音频片段;S2:从输入的搜索区图像和模板区图像中提取出图像tokens;S3:从输入的搜索区图像对应图像帧的音频片段以及模板区图像对应图像帧的音频片段中提取出音频tokens;S4:对提取出的图像tokens与音频tokens进行跨模态对齐,得到跨模态对齐后的图像tokens和音频tokens,其中,跨模态对齐后的图像tokens包括跨模态对齐后的搜索区图像tokens和跨模态对齐后的模板区图像tokens;将跨模态对齐后的搜索区图像tokens和模态对齐后的模板区图像tokens进行模态内对齐,得到交叉模态对齐后的图像tokens;S5:将跨模态对齐后的音频tokens与交叉模态对齐后的图像tokens进行模态混合操作,并采用多层Transformer编码器进行特征提取与融合,得到融合后的多模态特征,融合后的多模态特征包括搜索区图像特征和模板区图像特征;S6:根据最后一层编码器输出的搜索区图像特征得到搜索区图像中目标的坐标;其中,步骤S4对提取出的图像tokens与音频tokens进行跨模态对齐,得到跨模态对齐后的图像tokens和音频tokens,包括:计算B2个图像和音频对的tokens之间的余弦相似性,其中,来自同一时间的图像和音频对被称为正对,来自不同时间的图像和音频对被称为负对;通过最大化B个正对的余弦相似性,同时最小化B2-B个负对的余弦相似性来训练音频编码器,训练过程使用对比损失进行计算;通过训练好的音频编码器得到跨模态对齐后的图像和音频的tokens;步骤S4将跨模态对齐后的搜索区图像tokens和跨模态对齐后的模板区图像tokens进行模态内对齐,包括:将经过跨模态对齐的视觉模态中的搜索区域和模板区域的tokens进行融合,其中,将来自相同时间的搜索区图像和模板区图像视为正对,来自不同时间的搜索区图像和模板区图像视为负对;通过对比损失进行计算,获得交叉模态对齐后的图像的tokens。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。