Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学张静获国家专利权

电子科技大学张静获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于视觉Transformer的多细粒度遮挡行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116503895B

龙图腾网通过国家知识产权局官网在2026-01-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310083676.0,技术领域涉及:G06V40/10;该发明授权一种基于视觉Transformer的多细粒度遮挡行人重识别方法是由张静;郭权浩;刘娟秀;郝茹茜;王祥舟;杜晓辉;刘霖;刘永设计研发完成,并于2023-02-08向国家知识产权局提交的专利申请。

一种基于视觉Transformer的多细粒度遮挡行人重识别方法在说明书摘要公布了:本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法,属于图像处理领域。包含一个全局分支和三个局部分支。在多分支架构的设计中,我们在通道注意力和空间注意力的基础上,通过联合交互不同细粒度分支的特征信息,设计了跨分支注意力模块,以此来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中,提出特征增强模块F,其不仅能够获取到Transformer的全局感知信息,也能综合卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块,我们的模型能够更好的适应遮挡行人重识别场景。

本发明授权一种基于视觉Transformer的多细粒度遮挡行人重识别方法在权利要求书中公布了:1.一种基于视觉Transformer的多细粒度遮挡行人重识别方法,该方法包括: 步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17数据集和用于遮挡行人重识别的Occluded-DukeMTMC数据集; 步骤2:构建骨干网络中提取特征的视觉Transformer,其包括特征增强模块,所述特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层; 步骤2-1:将输入的数据过两个分支网络,其中一个分支为所述卷积层,另一个分支为所述Former层; 步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,得到图像块,然后将每个所述图像块展平后按照batch方向合并,将图像实现向量化; 步骤2-3:将PatchEmbedding的输出经过第一LayerNorm层实现层归一化; 步骤2-4:构建q、k、v三个线性层,将第一LayerNorm的输出进行多头自注意力机制计算,将计算的结果经过DropOut层输出;将所述DropOut层输出的结果与所述第一LayerNorm的输出相加得到多头自注意力计算后的特征; 步骤2-5:将多头自注意力计算后的特征依次经过第二LayerNorm层,MLP层;MLP是一个级联的二层线性层,通过投影的方式将输入维度扩增为原来的四倍再缩放回去,最后将MLP的输出和第二LayerNorm的输入相加得到Former层的输出特征; 步骤2-6:对于经过所述卷积层的数据,首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取; 步骤2-7:将提取的特征过1×1卷积,调整输出特征的通道数,使其保持与Former层的输出通道相同; 步骤2-8:通过AveragePooling操作调整输出特征的宽高,使其与Former层输出尺寸相同; 步骤2-9:将所述Former层的输出和所述卷积层的输出经过SharedMLP层,SharedMLP层由2层级联的3×3卷积和一个ReLU激活函数组成,其目的是通过计算通道注意力融合Former层和卷积层的输出特征; 步骤2-10:将所述SharedMLP层输出的两个特征进行Elementwiseadd后通过Sigmoid激活函数得到最终的输出; 步骤3:骨干网络构建,将所述特征增强模块作为基础的TransformerEncoder块,通过添加classtoken和位置参数构建完成的骨干网络; 步骤3-1:通过PatchEmbedding将图像划分成均匀大小的Patch,然后通过一个线性层将Patch投射成向量; 步骤3-2:构建classtoken可训练参数,采用KaimingNormal的方式进行初始化,其维度与PatchEmbedding输出向量维度一致; 步骤3-3:构建位置编码参数,采用KaimingNormal的方式进行初始化,主要用于计算各个Patch之间的相互关系; 步骤3-4:构建TransformerEncoder模块,它由多个所述特征增强模块堆叠而成; 步骤3-5:构建具有1000个类别的分类头以及用于分类的损失函数Softmax,完成整个用于提取特征的骨干网络构建; 步骤4:在骨干网络下游任务构建细粒度分支和跨分支注意力模块,其含一个全局分支和三个局部分支,跨分支注意力模块能够强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系; 步骤4-1:通过骨干网络,我们得到四个输出特征分支,其包含三个局部分支,分别是局部上游分支、局部中游分支以及局部下游分支,三个局部分支分别对应着PatchEmbedding层对输入图像从上而下的分块;此外,输出一个全局分支,用于提取图像全局特征; 步骤4-2:跨分支注意力模块包含两个注意力计算模块,每个所述注意力计算模块由两个线性层,一个1x1卷积层调控输出通道数和一个LayerNorm层; 步骤4-3:不同的遮挡程度会导致不同局部分支提取到不同重要程度的特征信息,为了弥补遮挡条件下的特征信息损失,需要强化未遮挡部分的特征信息,通过计算不同局部分支的注意力来分配不同局部分支的特征信息重要程度; 步骤4-4:计算全局分支和不同局部分支的注意力,调和不同分支特征信息的重要程度,将最终结果作为多分支结构输出; 步骤5:构建身份重识别模型训练损失函数,其包含用于分类的Softmax损失函数和用于计算特征距离的TripLet损失函数,训练得到身份重识别模型; 步骤5-1:将四路输出特征接全局最大池化和1×1卷积,将最终特征输入进分类和度量学习; 步骤5-2:构建Softmax损失函数作为分类部分损失函数,将三个局部分支的输出结果拼接后馈入分类部分; 步骤5-3:构建TripLet损失函数作为度量学习部分损失函数,将全局分支的输出结果拼接后馈入分类部分; 步骤5-4:加载由IMAGENET训练的预训练权重,利用Market-1501,MSMT17数据集进行行人重识别预训练,其目的是让多分支模型结构适应身份重识别任务,并使用遮挡行人数据集Occluded-Duke作为微调,增强模型在遮挡行人上的识别效果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。