一种基于特征融合及语义增强的细粒度图像分类方法

导航：龙图腾网> 最新专利技术> 一种基于特征融合及语义增强的细粒度图像分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：四川省数字经济研究院(宜宾);电子科技大学

摘要：本发明公开了一种基于特征融合及语义增强的细粒度图像分类方法。该方法包括以下步骤：首先，利用视觉TransformerViT模型进行特征提取，将输入图像分割成不重叠的patch，通过线性投影转换为嵌入向量，并输入Transformer编码器生成全局特征。接着，通过多层次注意力融合与语义信息结合，提取每层Transformer中的注意力权重，并结合预训练语言模型生成的语义嵌入，计算每个token的重要性分数，选择关键token。然后，对关键token进行二次分块和投影，重新选择二次关键token。通过交叉注意力机制，将全局特征和局部特征进行融合，生成融合特征。最后，将融合特征与全局分类特征结合，输入分类器进行分类，生成分类输出。通过多层次注意力融合和语义增强以及关键token选择，本发明实现对细粒度图像判别性特征区域的准确定位，增强特征的判别性，提高分类准确性。

主权项：1.一种基于特征融合及语义增强的细粒度图像分类方法，其特征在于，包括以下步骤：S1.ViT模型特征提取：将输入图像I分割成不重叠的patch，并通过线性投影转换为嵌入向量Ei，输入到Transformer编码器中生成全局特征Eglobal；S2.多层次注意力融合与结合语义信息的关键token选择：提取各层Transformer中的注意力权重A，，并结合预训练语言模型生成的语义嵌入emb，计算每个token的重要性分数si，选择关键token记为zkey；S3.语义增强与细化关键token选择：对S2中的zkey进行二次分块和投影，生成新的嵌入向量E′i，j，重新输入Transformer编码器中，并再次选择二次关键token记为z′key；S4.交叉注意力融合：通过交叉注意力机制，将全局特征Zglobal和局部特征z′key进行融合，生成融合特征Zfused；S5.特征融合与分类：将融合特征Zfused与全局分类特征Eglobal进行结合，输入分类器进行分类，生成分类输出y′；S6.损失函数设计与训练：设计交叉熵损失Lcross和对比损失Lcon，并通过反向传播优化模型参数。

全文数据：

权利要求：

百度查询：四川省数字经济研究院(宜宾) 电子科技大学一种基于特征融合及语义增强的细粒度图像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种多参量传感数据的实时处理方法和装置

下一篇：操作系统升级方法及身份识别设备、服务器、存储介质、产品

相关技术

一种多参量传感数据的实时处理方法和装置

操作系统升级方法及身份识别设备、服务器、存储介质、产品

一种数据流通方法及其系统、装置、通信节点

车载装置

一种用于SCADA系统的健康状态预测方法

信息推荐方法、装置、电子设备、芯片及存储介质

一种铁基层状氧化物钠离子电池正极材料及其制备方法和应用

客户服务维系方法及装置、可读存储介质、计算机程序产品

资料对齐方法、多装置系统及非暂态电脑可读取存储介质

用于声音事件定位和检测的方法和系统

一种智能眼镜及智能眼镜的降噪方法

电感组件、电子控制单元、车辆以及电感组件的装配方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于特征融合及语义增强的细粒度图像分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务