复旦大学姜育刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利一种基于多模态大模型的视频时空理解方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120877194B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511365934.X,技术领域涉及:G06V20/40;该发明授权一种基于多模态大模型的视频时空理解方法、装置及介质是由姜育刚;吴祖煊;石佳朋设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。
本一种基于多模态大模型的视频时空理解方法、装置及介质在说明书摘要公布了:本发明属于计算机视觉领域,具体涉及一种基于多模态大模型的视频时空理解方法、装置及介质,将多模态大语言模型和掩码分割模型相连,利用多模态编码器编码视频特征,针对时间任务和空间任务采取不同数量的采样帧数和视觉标记形式表示。视觉标记对齐到文本空间后与文本标记一起输入到大语言模型,解码得到对应的文本回答。对于时间任务,时间戳直接从文本回答中提取,空间信息则通过标记编码,其嵌入作为提示输入到掩码解码器,实现采样帧的掩码生成和整个视频的掩码传播。与现有技术相比,本发明实现了细粒度视频时空理解的联合训练,除了对视频的整体理解外,可以实现更精确的事件时空定位。
本发明授权一种基于多模态大模型的视频时空理解方法、装置及介质在权利要求书中公布了:1.一种基于多模态大模型的视频时空理解方法,其特征在于,步骤包括: 获取目标视频以及时间理解与空间感知的查询文本; 对于时间理解任务和空间感知任务分别以不同的帧数频率采样目标视频,并利用多模态编码器将视频编码成视觉标记;对于时间理解任务,在每帧的视觉标记后添加时间戳的文本说明; 利用文本标记生成器将查询输入文本编码成文本标记; 将视觉标记与文本标记整合后输入到大语言模型,对于时间理解任务,大语言模型根据查询文本和时间戳文本说明,输出时间戳文本来定位事件查询的时间位置;对于空间感知任务,大语言模型直接根据查询文本确定任务需求,输出SEG标记,所述SEG标记对应的隐藏层特征,用来提示掩码分割解码器生成采样帧的物体空间掩码; 对于时间理解任务,从文本回答中提取查询的时间戳;对于空间感知任务,从文本回答中定位SEG标记并得到特征嵌入;利用掩码分割模型的视觉编码器编码采样帧得到视觉特征;将特征嵌入作为提示,与视觉特征一起输入到掩码分割模型的掩码解码器,生成采样帧的掩码并将采样帧掩码在整个视频上进行掩码传播。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励