买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学(深圳)高等研究院
摘要:本发明公开了一种基于自我提示学习的域泛化行人重识别方法,首先构建根据提示对输入图像进行分割得到前景图像的图像分割模型,并采用大规模图像分割任务的数据集进行预训练,然后以预训练好的图像分割模型作为基础,构建基于自我提示的行人重识别模型,在该模型中通过注意力引导的生成自我提示集合,从而生成分割提示,并基于以此得到的分割结果,通过软掩码技术对特征图进行处理,然后二次提取行人特征,根据该二次行人特征进行行人重识别。本发明通过自动生成高质量的提示集,进行像素级别的目标‑场景分离,以缓解模型在未见过的相机场景中受到背景和遮挡等干扰导致的泛化能力不佳,提高行人重识别的准确性。
主权项:1.一种基于自我提示学习的域泛化行人重识别方法,包括以下步骤:S1:构建图像分割模型,用于根据提示从输入图像中生成分割掩码图像,分割掩码图像中每个像素值表示输入图像中对应像素属于前景或者背景的概率;根据实际需要设置大规模图像分割任务的数据集,对图像分割模型进行预训练;图像分割模型包括嵌入模块,Transformer编码器,池化模块,提示编码器和掩码解码器,其中:嵌入模块用于将大小为C×H×W输入的行人图像X分成N个不重叠的图像补丁,C表示输入行人图像的通道数,H×W表示输入行人图像的尺寸;然后将每个补丁映射为一个向量作为图像令牌,从而得到N个图像令牌xn,n=1,2,…,N;同时获取每个图像补丁的位置嵌入pn,然后将N个图像令牌xn和位置嵌入pn进行叠加构成图像令牌序列Y=[x1+p1,x2+p2,…,xN+pN]并输出至Transformer编码器;Transformer编码器包含堆叠的L层Transformer编码块,用于对接收到的图像令牌序列Y进行编码,每层Transformer编码块分别对输入特征提取隐藏表示Zj,j=1,2,…,L,将最后一层输出的隐藏表示ZL作为图像令牌序列Y的隐藏表示fZ发送至池化模块;池化模块用于对隐藏表示fZ进行池化操作,得到特征向量z=poolingfZ并输出至解码器;提示编码器用于对提示信息进行编码得到提示向量t,并输出至掩码解码器;掩码解码器用于根据特征向量z和提示向量t解码得到分割掩码mask;S2:以步骤S1预训练好的图像分割模型作为基础,构建基于自我提示的行人重识别模型,包括步骤S1预训练好的图像分割模型和注意力引导提示生成模块、场景无关特征提取模块、分类器,其中:图像分割模型中的嵌入模块,Transformer编码器,池化模块用于对输入图像X进行特征提取,得到行人特征z;注意力引导提示生成模块用于从图像分割模型中Transformer编码器的L层Transformer编码块中分别获取输入图像令牌和输出隐藏表示中每个图像令牌的注意力,然后生成自我提示集合并输出至图像分割模型的提示编码器,具体方法为:记每层Transformer编码块的隐藏表示Zj中N个图像令牌分别为zj,n,将输入图像令牌序列Y中每个输入图像令牌xn、每层Transformer编码块的每个图像令牌zj,n和池化模块输出的特征向量z作为节点,将每层Transformer编码块所提取的每个输入图像令牌与输出图像令牌之间的注意力值作为对应图像令牌之间的边的权值,将最后一层输出的图像令牌ZL,n与特征向量z之间的边的权值设置为1N,组成加权有向无环图;然后采用最大流算法,得到每个输入图像令牌xn到特征向量z的最大流路径rn,记其流量为wn;选择前M个最大的流量所对应的输入图像令牌m=1,2,…,M,nm表示第m个最大流量所对应的输入图像令牌的序号;然后从M个输入图像令牌中选取若干个作为提示图像令牌,将其对应的位置信息作为自我提示构成自我提示集合,提示图像令牌的筛选方法为:1将输入图像令牌作为第1个提示图像令牌,记其位置信息为S1;2令序号k=2,m=2;3判断是否表示输入图像令牌的位置,d表示求取距离,α表示预设的距离阈值,如果是,进入步骤4,否则进入步骤6;4将输入图像令牌作为第k个提示图像令牌;5令k=k+1,进入步骤6;6判断是否m<M,如果是,进入步骤7,否则筛选结束;7令m=m+1,返回步骤3;图像分割模型中的提示解码器用于对自我提示集合中的提示信息进行编码得到提示向量t;图像分割模型中的掩码解码器用于根据特征向量z和提示向量t解码得到分割掩码mask;场景无关特征提取模块用于根据掩码解码器输出的分割掩码mask对Transformer编码器第j*层Transformer编码块输出的隐藏表示进行处理,j*根据实际需要设置,然后重新输入第j*+1层Transformer编码块进行二次特征提取,最后由池化模块得到二次行人特征z′并发送至分类器,隐藏表示处理具体方法为:对分割掩码mask进行高斯卷积将分割边缘的分类结果映射成0到1的浮点值得到像素集分割软掩码mask′;选取第j*层Transformer编码块输出的隐藏表示对隐藏表示进行反卷积得到与分割软掩码mask′尺寸相同的特征采用分割软掩码mask′对特征进行过滤操作得到特征然后将特征进行卷积还原为隐藏表示的尺寸得到特征然后将隐藏表示和特征进行融合,得到新的隐藏表示 分类器用于根据二次行人特征z′进行分类,得到行人ID;S3:根据实际部署场景获取训练样本集,每个训练样本行人图像表示为i=1,2,…,D,D表示训练样本图像的数量,训练样本的标签fi表示行人图像中行人的ID;S4:固定基于自我提示的行人重识别模型中其他模块的参数,将步骤S3中各个训练样本分别输入基于自我提示的行人重识别模型,对Transformer编码器进行优化训练,得到训练好的基于自我提示的行人重识别模型;S5:当需要进行行人重识别时,将行人图像输入步骤S4训练好的基于自我提示的行人重识别模型,得到行人的识别结果。
全文数据:
权利要求:
百度查询: 电子科技大学(深圳)高等研究院 基于自我提示学习的域泛化行人重识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。