一种基于视觉-语言预训练模型的长尾多标记图像分类方法

导航：龙图腾网> 最新专利技术> 一种基于视觉-语言预训练模型的长尾多标记图像分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法，获取具有真实标记的多标记样本数据；将传统CLIP预训练模型模型中softmax层替换为sigmoid层，适应多标记任务；构建长尾多标记图像分类模型并对其进行训练；将语义融合特征与文本特征进行残差连接，与图像特征进行余弦相似度计算，并经过sigmoid得到预测概率；由重加权长尾损失函数对模型进行监督训练，并应用参数高效微调避免过拟合问题；针对待测试的图像数据，经过数据增强策略后，输入到训练后的模型中进行预测，最终获得标签的预测结果，实现长尾多标记图像分类。本发明充分利用了标签之间的相关性，缓解长尾类别分布引发的尾部类分类精度不足的影响，提高了多标记分类的准确性。

主权项：1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，包括以下步骤：1获取具有真实标记的多标记样本数据2将传统CLIP预训练模型模型中softmax层替换为sigmoid层，使传统CLIP适应多标记任务；3构建长尾多标记图像分类模型并对其进行训练；所述模型包括图像编码器、文本编码器和图卷积神经网络模块；4针对待测试的图像数据，经过数据增强策略后，输入到训练后的模型中进行预测，最终获得标签的预测结果，实现长尾多标记图像分类。

全文数据：

权利要求：

百度查询：东南大学一种基于视觉-语言预训练模型的长尾多标记图像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种自动化拣选耗材的仓储配送装置及方法

下一篇：一种业务的分析方法及其装置

相关技术

一种自动化拣选耗材的仓储配送装置及方法

一种业务的分析方法及其装置

一种多芯电缆单股导线分离系统及分离方法

一种自动化组装设备

柴油发电机并网管控半物理测试系统与方法

一种自甘草酸单铵盐母液膏中分离甘草酸单铵盐和甘草苷的方法

基于逃逸对抗模型的病毒流量检测方法与设备

异构GPU调度方法、装置、存储介质、电子设备及产品

一种环吊桥架模块化安装方法

一种小型精密轴类零件加工设备

一种多系统终端跨域通信管控系统及方法

分布式大数据的聚类方法、装置、设备、存储介质及产品

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于视觉-语言预训练模型的长尾多标记图像分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务