买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法,获取具有真实标记的多标记样本数据;将传统CLIP预训练模型模型中softmax层替换为sigmoid层,适应多标记任务;构建长尾多标记图像分类模型并对其进行训练;将语义融合特征与文本特征进行残差连接,与图像特征进行余弦相似度计算,并经过sigmoid得到预测概率;由重加权长尾损失函数对模型进行监督训练,并应用参数高效微调避免过拟合问题;针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。本发明充分利用了标签之间的相关性,缓解长尾类别分布引发的尾部类分类精度不足的影响,提高了多标记分类的准确性。
主权项:1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,包括以下步骤:1获取具有真实标记的多标记样本数据2将传统CLIP预训练模型模型中softmax层替换为sigmoid层,使传统CLIP适应多标记任务;3构建长尾多标记图像分类模型并对其进行训练;所述模型包括图像编码器、文本编码器和图卷积神经网络模块;4针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。
全文数据:
权利要求:
百度查询: 东南大学 一种基于视觉-语言预训练模型的长尾多标记图像分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。