Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 复旦大学吴祖煊获国家专利权

复旦大学吴祖煊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉复旦大学申请的专利一种基于视觉提示的多模态实例级理解方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121259462B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511803065.4,技术领域涉及:G06V10/764;该发明授权一种基于视觉提示的多模态实例级理解方法及系统是由吴祖煊;姜育刚;彭舞鉴设计研发完成,并于2025-12-03向国家知识产权局提交的专利申请。

一种基于视觉提示的多模态实例级理解方法及系统在说明书摘要公布了:本发明涉及计算机视觉领域,具体公开了一种基于视觉提示的多模态实例级理解方法及系统,使用交互式实例分割模型和视频实例追踪模型对特定实例进行时空分割,并生成视觉提示;随后使用视觉编码器对带有视觉提示的视频进行编码,并通过跨模态连接模块将视觉表征映射到和语言共享的多模态表征空间,得到视觉特征;使用文本分词器对输入文本进行处理,获得对应的文本特征;最后利用大语言模型统一建模视觉和语言输入,得到关于特定实例的细粒度描述或问题回答。与现有技术相比,本发明实现对特定实例在时空维度上的精准定位与跟踪,提升了视频多模态模型的实例级细粒度理解能力。

本发明授权一种基于视觉提示的多模态实例级理解方法及系统在权利要求书中公布了:1.一种基于视觉提示的多模态实例级理解方法,其特征在于,步骤包括: 获取待理解的视频图像与查询文本输入; 对于待理解的视频图像,利用交互式实例分割模型对目标实例进行掩码分割,并在原始视频图像上生成视觉提示; 将带有视觉提示的视频以及对应的查询文本输入至多模态细粒度理解器,所述多模态细粒度理解器包括视觉编码器、跨模态连接器、分本分词器以及自回归大语言模型,训练损失包括监督微调损失、帧级实例描述损失和视频级实例一致性损失, 所述监督微调损失:基于指令遵循数据进行训练,输入为视频及对应的问题文本,输出为预测的答案文本,通过交叉熵损失函数计算模型预测结果与标准答案的差异; 所述帧级实例描述损失:基于帧级实例描述数据进行训练,输入为单帧带有视觉提示的图像,输出为针对特定实例的文本描述,通过交叉熵损失函数计算预测结果与标准答案之间的差异; 所述视频级实例一致性损失:基于视频级实例描述数据进行训练,输入为包含视觉提示的多个视频帧,输出为各帧中目标实例的文本描述,利用文本编码器获取各帧中目标实例描述的文本特征,再通过均方误差损失函数对同一实例在不同帧中的文本描述一致性进行约束; 通过视觉编码器对包含视觉提示的视频图像进行编码,得到视觉词元序列;通过跨模态连接器将视觉表征映射至多模态空间,获得视觉词元对应的视觉特征; 通过文本分词器对输入文本进行处理,通过查询词嵌入表获得对应的文本特征; 将视觉特征与文本特征输入自回归大语言模型,生成针对目标实例对象的细粒度问题回答或文本描述。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。