买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京智源人工智能研究院
摘要:本发明公开了一种基于可提示分割模型的分割识别和文本描述方法,包括:获取图像目标;建立可提示分割模型ProTo,可提示分割模型ProTo用于基于SMA架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述,所述可提示分割模型包括图像编码器、提示编码器以及图像解码器;图像编码器与图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息;图像解码器用于提供基于视觉提示的区域级视觉表征;基于可提示分割模型对图像目标进行分割识别和文本描述,获得可提示分割、概念预测及可提示的文本描述。还公开对应系统和电子设备,通过概念蒸馏有效利用CLIP进行模型预训练;实现通用具有位置感知能力的图像标记工具,促进区域级视觉理解。
主权项:1.一种基于可提示分割模型的分割识别和文本描述方法,其特征在于,包括:S1,获取图像目标;S2,建立可提示分割模型ProTo,所述可提示分割模型ProTo用于基于SAM架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述,所述可提示分割模型包括图像编码器、提示编码器以及通用的图像解码器;所述图像编码器与通用的图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息;所述通用的图像解码器用于提供基于视觉提示的区域级视觉表征;S3,基于所述可提示分割模型对所述图像目标进行分割识别和文本描述从而获得可提示分割、概念预测以及可提示的文本描述;所述S2包括:S21,获取用于所述可提示分割模型预训练的图像分割数据集和预测的分割掩码;S22,将SAM架构中的掩码解码器替换为通用的图像解码器获得模型初级架构,在每个预测的分割掩码的掩码标记添加一个语义标记;所述语义标记用于从预定义的概念空间中学习语义先验知识,所述语义先验知识来自具有50亿参数的CLIP大模型;S23,将所述模型初级架构在所述图像分割数据集进行预训练,并基于所述模型预训练构建模型初级架构中一体的模拟CLIP视觉编码器和通用的图像解码器;S24,基于可提示分割和词汇概念预测两个子任务,对基于掩码标记的分割损失以及基于语义标记的概念蒸馏损失进行联合优化,获得具有区域识别与定位能力的预训练可提示分割模型;S25,将预训练可提示分割模型在区域级文本描述任务上进行微调训练;所述模拟CLIP视觉编码器和通用的图像解码器为一体结构;所述图像分割数据集来自SA-1B;所述提示编码器针对SA-1B数据源的点、框和草图获得输入;两个子任务包括:经过通用的图像解码器后通过掩码嵌入、预测的分割掩码的掩码标记以及计算得分的方式预测掩码,并获得可提示分割;通过文本描述、视觉嵌入和CLIP文本编码器的文本嵌入预测区域概念;所述模拟CLIP视觉编码器用于对SA-1B的图像分割数据进行预处理;所述通用的图像解码器共生成9个标记,所述9个标记包括4个语义标记、4个掩码标记和1个IoU标记。
全文数据:
权利要求:
百度查询: 北京智源人工智能研究院 基于可提示分割模型的分割识别和文本描述方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。