买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法,属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时,产生对应的特征,使用该特征对应的注意力图作为中间提示,利用SAM进行高精度的物体分割,从而同时获得物体类别和感知结果,以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型,在最小改变模型框架的基础上,实现更好的开放式感知性能。
主权项:1.一种基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,使用大型视觉语言模型描述整个场景,并给出物体类别描述时生成的注意力图作为SAM的提示,进行物体分割,完成开放式感知,具体包括如下步骤:S1、给定图像输入,利用大型视觉语言模型的视觉编码部分对图像进行特征编码,获得二维图像编码特征Fc∈RC×H×W;S2、输入预定义好的问题提示,使用大型视觉语言模型的文本编码器进行文本编码,获得文本编码特征S3、将上述两个编码特征级联在一起,得到多模态编码特征输入到大型视觉语言模型的解码器,由大型视觉语言模型进行文本描述生成,同时会生成更多的多模态编码特征S4、多模态编码特征根据查询和键值进行拆分,得到和将q和k进行矩阵相乘,S=q×kT;得到多层多头注意力图Sh,l,其中h表示头数,l表示层数,多层多头注意力图进行聚合,得到注意力图S;S5、使用注意力图S进行SAM提示生成,得到提示编码特征;S6、将给定图像输入到SAM模型的图像编码器中,得到图像编码特征,将提示编码特征和图像编码特征一起输入到SAM的掩码解码器中,得到初步的掩码结果;S7、对步骤6的掩码结果进行多次迭代,直到收敛;S8、进行高精度的物体分割,对图像进行切片,得到更多的子图,重复步骤S1-S6,生成所有掩码结果后进行合并。
全文数据:
权利要求:
百度查询: 北京大学 基于大型视觉语言模型注意力图的开放式通用感知方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。