基于大型视觉语言模型注意力图的开放式通用感知方法

导航：龙图腾网> 最新专利技术> 基于大型视觉语言模型注意力图的开放式通用感知方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法，属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时，产生对应的特征，使用该特征对应的注意力图作为中间提示，利用SAM进行高精度的物体分割，从而同时获得物体类别和感知结果，以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型，在最小改变模型框架的基础上，实现更好的开放式感知性能。

主权项：1.一种基于大型视觉语言模型注意力图的开放式通用感知方法，其特征在于，使用大型视觉语言模型描述整个场景，并给出物体类别描述时生成的注意力图作为SAM的提示，进行物体分割，完成开放式感知，具体包括如下步骤：S1、给定图像输入，利用大型视觉语言模型的视觉编码部分对图像进行特征编码，获得二维图像编码特征Fc∈RC×H×W；S2、输入预定义好的问题提示，使用大型视觉语言模型的文本编码器进行文本编码，获得文本编码特征S3、将上述两个编码特征级联在一起，得到多模态编码特征输入到大型视觉语言模型的解码器，由大型视觉语言模型进行文本描述生成，同时会生成更多的多模态编码特征S4、多模态编码特征根据查询和键值进行拆分，得到和将q和k进行矩阵相乘，S＝q×kT；得到多层多头注意力图Sh,l，其中h表示头数，l表示层数，多层多头注意力图进行聚合，得到注意力图S；S5、使用注意力图S进行SAM提示生成，得到提示编码特征；S6、将给定图像输入到SAM模型的图像编码器中，得到图像编码特征，将提示编码特征和图像编码特征一起输入到SAM的掩码解码器中，得到初步的掩码结果；S7、对步骤6的掩码结果进行多次迭代，直到收敛；S8、进行高精度的物体分割，对图像进行切片，得到更多的子图，重复步骤S1-S6，生成所有掩码结果后进行合并。

全文数据：

权利要求：

百度查询：北京大学基于大型视觉语言模型注意力图的开放式通用感知方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种采煤机用轴承部件故障监测方法

下一篇：一种提镓树脂中镓钒分步解吸的方法

相关技术

一种采煤机用轴承部件故障监测方法

一种提镓树脂中镓钒分步解吸的方法

一种防盗门的通风除尘装置

一种高温气冷堆的供电装置

一种高层建筑多模爬升模板及其施工方法

一种感应器测试验证设备

矿化装置、供水系统及矿化装置的矿化滤芯更换方法

一种带储物装置的箱包拉杆组件及箱包

一种栎树种子采集设备

一种颌骨矫治装置

一种人体姿态检测和康复硬件设备结合的康复训练系统及方法

一种直流充电桩低压注入绝缘检测电路及其检测方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于大型视觉语言模型注意力图的开放式通用感知方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务