买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海交通大学
摘要:本发明提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法,包括:对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集;利用图像特征提取网络和文本特征提取网络对数据集分别进行特征提取,获得图像及文本单模态内的全局与局部特征;在嵌入网络中将单模态内的全局与局部特征转化为对应模态的嵌入特征;在多个损失函数的联合约束下,进行模型训练。本发明对局部特征进行更细粒度的划分,充分利用局部特征之间的对应关系,辅助主干网络提取更加对齐的全局跨模态嵌入特征;通过整体损失联合约束网络的训练,促使模型向着最优的方向收敛,提高基于自然语言描述的行人图像搜索的性能。
主权项:1.一种基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,包括:对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集;利用图像特征提取网络和文本特征提取网络对所述数据集分别进行特征提取,获得对应的单模态内的全局与局部特征;利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征;在模型的整体损失的联合约束下,进行模型训练;使用训练好的模型进行行人图像搜索;所述对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集,包括:获取人体的全局图像表示Iglobal,整体文本表示Tglobal;对图像模态和文本模态中的原始数据基于人体身体部位和单词词性进行划分,包括:利用已有的人体分割网络生成基于人体身体部位的图像分割掩码Ilocal-label;利用单词-人体部位的对应表,结合所述对应表和已有的自然语言处理工具库NLTK获取每个身体部位的文本表示和所述特征嵌入网络,包括六个子网络,为:图像全局特征嵌入网络Evisual-global、名词语义对应的图像局部特征嵌入网络形容词语义对应的图像局部特征嵌入网络文本全局特征嵌入网络Etextual-global、名词语义对应的文本局部特征嵌入网络形容词语义对应的图像局部特征嵌入网络所述全局与局部的多模态嵌入特征,包括:全局嵌入特征vglobal-embed、图像的局部嵌入特征vnoun-embed和vadj-embed、文本的全局嵌入特征tglobal-embe、文本的局部嵌入特征tnoun-embed和tadj-embed;所述利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征,包括:全局图像特征vglobal经过图像局部特征嵌入网络Evisual-globa得到全局嵌入特征vglobal-embe;全局图像特征vglobal经过名词语义对应的图像局部特征嵌入网络得到图像的局部嵌入特征vnoun-embe;全局图像特征vglobal经过形容词语义对应的图像局部特征嵌入网络得到图像的局部嵌入特征vadj-embed;文本的全局特征tglobal经过文本全局特征嵌入网络Etextual-glob得到文本的全局嵌入特征tglobal-emb;基于名词语义划分的文本局部特征经过名词语义对应的文本局部特征嵌入网络得到文本的局部嵌入特征tnoun-embed;基于形容词语义划分的文本局部特征经过形容词语义对应的图像局部特征嵌入网络得到文本的局部嵌入特征tadj-embed;图像的局部嵌入特征vnoun-embed和vadj-embed经过反卷积操作得到图像局部特征的类别预测xnoun和xadj;所述整体损失的函数为:其中,Lglobal-ali为全局对齐损失,用于约束模态间全局嵌入特征的相似度;和为局部对齐损失,分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度;和为分割损失,用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应;λ1和λ2表示对应损失分量的权重。
全文数据:
权利要求:
百度查询: 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。