首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于零样本曼巴模型的图像识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京理工大学

摘要:本发明公开了一种基于零样本曼巴模型的图像识别方法,通过四种图像扫描策略确保了特征图中的每个元素都能够整合来自不同方向的信息。采用状态空间模型,特别是曼巴,对特征进行运算处理。使模型能够保持在保持线性计算复杂度的同时,对输入有着全局视野。在三个经典的图像分类数据集CUB,SUN和AWA2的传统零样本基准测试上得到,比传统ResNet、ViT模型提取的特征拥有更好的性能。证明本方法可以通过学习已见类图像的先验知识,并且利用曼巴模型的对全局图像特征进行学习,从而精确的识别未见类图像。

主权项:1.一种基于零样本曼巴模型的图像识别方法,其特征在于,所述零样本曼巴模型的建立及训练过程包括:S1:给定数据集,将所述数据集划分为已见类和未见类;S2:将图像平均划分为数个小块,然后通过四种扫描策略:正横向、逆横向、正竖向、逆竖向,将二维图像变为一维序列,得到四种顺序不同的图像序列特征;S3:将S2得到的图像的四种顺序不同的图像序列特征分别对应输入堆叠的曼巴模块,融合四个堆叠曼巴模块的输出得到曼巴视觉特征;S4:将图像和类别名分别输入CLIP视觉编码器和CLIP文本编码器得到潜在空间表示,并将其中的视觉表示分离出全局表示和局部表示;S5:将所述局部表示和所述曼巴视觉特征输入多层曼巴视觉融合模块,得到被CLIP增强泛化性的最终视觉特征;S6:将所述最终视觉特征通过线性层映射到属性空间,然后根据语义矩阵的相似度得出曼巴预测分数;接着,计算所述全局表示和所述潜在空间表示中的类别文本表示的余弦相似度,得到CLIP预测分数;最后,将所述曼巴预测分数和所述CLIP预测分数相加,得到模型预测分数;并引入偏差向量允许一部分的已见类预测迁移到未见类,得到最终预测分数;S7:对所述最终预测分数采用交叉熵损失Lcl和自校准损Lcal进行监督训练;所述图像识别方法包括:对于待识别的图像,首先按照所述四种扫描策略得到该图像对应的四种顺序不同的图像序列特征,输入S7训练完成的零样本曼巴模型中,经模型运算后输出对应的图像预测标签完成该图像的识别。

全文数据:

权利要求:

百度查询: 南京理工大学 一种基于零样本曼巴模型的图像识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。