买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广东保伦电子股份有限公司
摘要:本发明公开了一种基于融合关键点注意力引导的图文行人检索方法,包括以下步骤:获取图文行人数据集和图像数据集;构建人体关键点检测模型,对人体关键点检测模型进行训练,得到训练好的人体关键点检测模型;构建CLIP模型,所述CLIP模型包括文本分支和图像分支,根据交叉注意力机制,结合人体关键点检测模型的输出对CLIP模型进行训练;实时向训练好的CLIP模型输入行人图像以及行人文本,CLIP模型根据行人文本检索匹配行人图像中对应的行人。本发明通过交叉注意力机制向CLIP模型引入人体关键点信息,加入了额外的监督信号,减少了遮挡及背景信息的干扰,在提高行人图文检索的准确率的同时,降低了人工标注成本。
主权项:1.一种基于融合关键点注意力引导的图文行人检索方法,其特征在于,包括以下步骤:S1.获取图文行人数据集和图像数据集,所述图文行人数据集为带有标签的数据集,所述图文行人数据集包括若干行人图像数据、与图像对应的行人文本数据,所述图像数据集为带有标签的图像数据集;S2.构建人体关键点检测模型,向人体关键点检测模型输入图像数据集,对人体关键点检测模型进行训练,得到训练好的人体关键点检测模型,所述人体关键点检测模型的骨干网络为ViT-B模型,所述ViT-B模型包括PatchEmbedding模块、Transformer模块和解码器模块构成,所述Transformer模块中包括编码器,所述Transformer模块中的编码器包括归一化层、多头自注意力层和前馈层,所述多头自注意力层包括多个自注意力模块;所述人体关键点检测模型的工作流程包括:向人体关键点检测模型输入图像向量,PatchEmbedding模块将图像向量分割为若个尺寸相同的patch,将所述若干个patch依次向Transformer模块进行输入,对于每个patch,将同一个patch同时输入多头自注意力层中所有自注意力模块中,每个自注意力模块对patch计算后输出一个向量,将得到的所有向量进行拼接后进行线性变换,得到与patch维度相同的预测结果;S3.构建CLIP模型,所述CLIP模型包括文本分支和图像分支,向CLIP模型和训练好的人体关键点检测模型输入图文行人数据集,根据交叉注意力机制,所述交叉注意力机制具体原理为:交叉注意力机制有两个不同的向量输入,分别为向量X1和向量X2,向量X1通过线性变换得到Query,向量X2通过线性变换得到Key和Value,将Query与Key进行点积,对点积后的结果通过归一化指数函数获得注意力权重Ws,将Ws与Value相乘,得到交叉注意力机制的输出,结合训练好的人体关键点检测模型的输出对CLIP模型进行训练,每一次训练中,向CLIP模型的图像分支输入一份行人图像数据,将图像分支输出的特征序列作为交叉注意力机制的输入向量X2,向人体关键点检测模型输入相同的行人图像数据,将人体关键点检测模型输出的特征序列作为交叉注意力机制的输入向量X1,得到交叉注意力机制的输出,将交叉注意力机制的输出作为图像分支的输出,向CLIP模型的文本分支输入对应的行人文本数据,获得文本分支的输出,根据图像分支的输出和文本分支的输出计算与数据集标签之间的损失,根据损失优化CLIP模型的参数,完成一次训练,进行若干次训练,直到训练次数达到预设阈值或是损失小于预设损失,结束训练,得到训练好的CLIP模型;S4.实时向训练好的CLIP模型输入行人图像以及行人文本,CLIP模型根据行人文本检索匹配行人图像中对应的行人。
全文数据:
权利要求:
百度查询: 广东保伦电子股份有限公司 一种基于融合关键点注意力引导的图文行人检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。