首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于渐进式互指导的组合零样本图像分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明涉及计算机视觉图像零样本分类领域,提供一种基于渐进式互指导的组合零样本图像分类方法,包括:将训练图像输入到预训练好的视觉特征提取器中提取到多尺度的基元特征(属性特征和对象特征);将多尺度的基元特征输入深度神经分类网络中进行渐进式互学习,得到训练好的模型,迭代此过程,逐步得到精确的网络模型;将图像对应的标签通过词嵌入转换为文本特征,与视觉特征进行对齐;对预测的模型和文本计算松弛交叉熵损失,优化网络模型;将测试集输入到优化后的模型中,通过三个不同分支的平衡得到预测结果。本发明能够大幅度提高对于看不见组合的分类精度,同时缓解了组合零样本任务存在的泛化性和情境性问题,使图像分类更加准确。

主权项:1.一种基于渐进式互指导的组合零样本图像分类方法,其特征在于,包括以下步骤:步骤100,训练,将训练图像x输入到预训练好的视觉特征提取器ResNet18;步骤101,基元视觉特征提取,用不同的卷积层提取训练好的ResNet18的中间层特征分别得到多尺度的原始的属性视觉特征和原始的对象视觉特征步骤200,迭代基元与组合互指导过程,迭代次数i∈[1,N];步骤201,属性指导组合,当前尺度下融合后的属性视觉特征从解耦属性分支输入到耦合组合分支;步骤202,对象指导组合,当前尺度下融合后的对象视觉特征从解耦对象分支输入到耦合组合分支;步骤203,耦合,对于同一尺度下的融合后的属性视觉特征和融合后的对象视觉特征通过双注意力组合生成模块DACG进行特征融合得到当前尺度下的组合视觉特征;步骤204,组合指导属性,关注于属性的组合视觉特征从耦合组合分支返回到解耦属性分支指导属性视觉特征的融合;步骤205,组合指导对象,关注于对象的组合视觉特征从耦合组合分支返回到解耦对象分支指导对象视觉特征的融合;步骤206,解耦,组合指导的基元视觉特征来自三部分:分别是当前尺度下的特征前一尺度保留的融合后的基元视觉特征以及用于指导的组合视觉特征重复步骤201~206;渐进式互指导网络PMGNet包括多尺度视觉特征的提取、基元视觉特征和组合视觉特征的相互指导两个部分;对于多尺度视觉特征的提取,选择步骤100中的预训练好的视觉特征提取器ResNet18;对于基元视觉特征和组合视觉特征的相互指导,主要由三个相互依赖的分支组成分别是:解耦属性分支、解耦对象分支和耦合组合分支;在步骤201中,解耦属性分支是渐进式互指导网络PMGNet中负责对属性进行分类的分支;接收从预训练的视觉特征提取器ResNet18多个残差块的特征图,通过1×1卷积、3×3卷积和全局池化得到的多个尺度下的属性视觉特征作为输入,并输出在组合视觉特征的指导下融合了不同尺度下属性视觉特征的属性特征该分支通过与对应的属性文本特征ya计算损失函数来优化属性视觉特征;公式表示如下: 其中,a表示目标图像所预测的属性文本标签,表示属性预测范围内的其他属性文本标签,A表示全部属性预测文本标签的集合,η为标量用于控制Softmax激活函数分布的峰值,γ控制松弛的程度,范围在0~1之间;对于不同尺度下属性视觉特征的融合,在组合视觉特征的指导下,选择当前尺度下的属性特征,前一尺度下的属性特征在当前尺度下进行可学习的加权求和,公式表示如下: 其中,分别代表解耦属性分支中前一尺度传来的融合后的属性视觉特征所占的权重、当前尺度下原始的属性视觉特征所占的权重以及组合指导属性分支所占的权重;在步骤202中,解耦对象分支是渐进式互指导网络PMGNet中负责对对象进行分类的分支;接收从预训练的视觉特征提取器ResNet18多个残差块的特征图,通过1×1卷积、3×3卷积和全局池化得到的多个尺度下的属性视觉特征作为输入,并输出在组合视觉特征的指导下融合了不同尺度下对象视觉特征的对象特征该分支通过与对应的对象文本特征yb计算损失函数来优化对象视觉特征;公式表示如下: 其中,b表示目标图像所预测的对象文本标签,表示对象预测范围内的其他对象文本标签,B表示全部对象预测文本标签的集合,η为标量用于控制Softmax激活函数分布的峰值,γ控制松弛的程度,范围在0~1之间;对于不同尺度下对象视觉特征的融合,在组合视觉特征的指导下,选择当前尺度下的对象特征,前一尺度下的对象特征在当前尺度下进行可学习的加权求和,公式表示如下: 其中,分别代表解耦对象分支中前一尺度传来的融合后的对象视觉特征所占的权重、当前尺度下原始的对象视觉特征所占的权重以及组合指导对象分支所占的权重;在步骤203中,耦合组合分支是渐进式互指导网络PMGNet中负责对组合进行分类的分支;接收多个尺度下属性视觉特征和对象视觉特征作为输入,通过采用双注意力组合生成模块DACG融合得到组合视觉特征该分支通过与对应的组合文本特征ym计算损失函数来优化组合的视觉特征;公式表示如下: 其中,m表示目标图像所预测的组合文本标签,表示组合预测范围内的其他组合文本标签,M表示全部组合预测文本标签的集合,η为标量用于控制Softmax激活函数分布的峰值,k控制松弛的程度,范围在0~1之间;在步骤203中,融合基元视觉特征得到组合视觉特征的方法如下:通过采用双注意力组合生成模块DACG,鼓励生成两个不同的组合视觉特征;具体来说,把第i个尺度下的融合后的属性视觉特征和融合后的对象视觉特征作为输入,首先计算它们的哈达玛积,然后通过Softmax激活函数得到组合的注意力分数,将得到的注意力分数与所要关注的基元视觉特征进行哈达玛积再和另一个基元视觉特征进行元素级相加,通过全连接的学习即可得到带有注意力的组合视觉特征,考虑属性和对象之间的关系;DACG的操作用公式表示为: 其中表示关注于属性的组合视觉特征,表示关注于对象的组合视觉特征,表示组合指导融合后的属性视觉特征,表示组合指导融合后的对象视觉特征,表示哈达玛积,表示元素级相加,Softmax表示Softmax激活函数,FC表示全连接层;在步骤206中,组合指导基元视觉特征解耦,方法如下:利用生成的组合视觉特征和来分别指导解耦属性分支和解耦对象分支进行解纠缠,同时保留组合的情境性;具体来说,通过将组合视觉特征添加到解耦属性分支中的原始的属性视觉特征和前一尺度传来的融合后的属性视觉特征中进行加权求和,就能够得到语义更加丰富的基元视觉特征,既包含细粒度特征,又包含与另一个基元视觉特征之间的纠缠,同样的操作也在解耦对象分支中执行;于是将这种操作公式化为: 其中,分别代表解耦属性分支中前一尺度传来的融合后的属性视觉特征所占的权重、当前尺度下原始的属性视觉特征所占的权重以及组合指导属性分支所占的权重;分别代表解耦对象分支中前一尺度传来的融合后的对象视觉特征所占的权重、当前尺度下原始的对象视觉特征所占的权重以及组合指导对象分支所占的权重;步骤300,文本特征提取,将图像的属性标签a和对象标签b通过词嵌入转换为特征向量得到对应的属性文本特征ya和对象文本特征yb;步骤301,文本特征融合,将属性文本特征ya和对象文本特征yb拼接在一起输入到多层感知机MLP中得到组合的文本特征ym;步骤400,训练loss,最终的视觉特征和对应的文本特征在同一个嵌入空间中计算松弛交叉熵损失RCEloss;步骤401,平衡loss,平衡基元分支的loss和组合分支的loss,优化渐进式互指导网络PMGNet;步骤500,使用优化后的渐进式互指导网络PMGNet来测试图像;步骤501,组合标签预测,组合标签由一个属性加一个对象组成;将图像输入到渐进式互指导网络PMGNet中,通过解耦属性分支、解耦对象分支和耦合组合分支分别得到预测的属性分数、对象分数和组合分数,通过平衡这三个分数得到一个综合分数,选取综合分数最大的标签作为图像预测的组合标签。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于渐进式互指导的组合零样本图像分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。