西北工业大学张艳宁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利基于动态自进化信息抽取和对齐的文本-目标检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116645694B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310483808.9,技术领域涉及:G06V40/10;该发明授权基于动态自进化信息抽取和对齐的文本-目标检索方法是由张艳宁;王鹏;牛凯;陈鸿宇;矫炳亮;高丽颖设计研发完成,并于2023-05-04向国家知识产权局提交的专利申请。
本基于动态自进化信息抽取和对齐的文本-目标检索方法在说明书摘要公布了:本发明公开了一种基于动态自进化信息抽取和对齐的文本‑目标检索方法,构建了文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型提取图像和描述的基本特征;在行人无关视觉内容过滤模块中,采用了Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声;最后,在行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,利用掩码描述对各个行人部件的强调程度,以进行详细的部件级对齐和匹配。
本发明授权基于动态自进化信息抽取和对齐的文本-目标检索方法在权利要求书中公布了:1.一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,包括如下步骤: 步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块; 步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路; 所述语义特征提取支路使用经过文本数据预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊分类标记,将特殊分类标记经过BERT模型处理后,将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示; 所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络Backbone,用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作,用于增加特征图的空间尺度,模型输出的特征图的大小设定为C,H,W,其中C和H,W分别表示通道维度和特征映射大小; 步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块; 步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制和一个前馈网络;首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量,作为Transformer编码器层的输入,然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量: qi=Wqvi,kj=Wkvj,valuej=Wvvj 其中,qi为query向量中的分量,vi为value向量中的分量,kj为key向量向量中的分量,Wq、Wk、Wv分别为权重矩阵; 利用每两个视觉特征向量的query向量和key向量之间的相似性si,j作为注意力的权重ai,j: 其中dk为query向量和key向量的通道维度; 计算加权的视觉特征向量,如下: 将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征; 步骤1-2-2:所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制;首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致;为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数LSM,通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来,最终所述原型引导的注意力模块将生成强化后的视觉特征Voriginal; 步骤1-3:所述行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,包括视觉掩码过滤器和文本掩码过滤器; 行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部视觉特征,大小表示为C,Hk,W,将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart;同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征;此后,将步骤1-2-1提取的文本特征引导局部视觉特征Vpart和全局视觉特征进行动态自主进化,得到最终视觉特征Vfinal,计算过程见下式: 其中,Vglobal表示全局视觉特征,表示第i个水平条带区域的部分级别视觉特征,αi是文本引导的第i个视觉水平条带区域对应的权重得分,i=1,2,...,k; 步骤2:使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络,设置训练超参数,使用Adam优化器完成训练; 测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算; 步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则判定查询成功。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。