一种基于融合关键点注意力引导的图文行人检索方法

导航：龙图腾网> 最新专利技术> 一种基于融合关键点注意力引导的图文行人检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东保伦电子股份有限公司

摘要：本发明公开了一种基于融合关键点注意力引导的图文行人检索方法，包括以下步骤：获取图文行人数据集和图像数据集；构建人体关键点检测模型，对人体关键点检测模型进行训练，得到训练好的人体关键点检测模型；构建CLIP模型，所述CLIP模型包括文本分支和图像分支，根据交叉注意力机制，结合人体关键点检测模型的输出对CLIP模型进行训练；实时向训练好的CLIP模型输入行人图像以及行人文本，CLIP模型根据行人文本检索匹配行人图像中对应的行人。本发明通过交叉注意力机制向CLIP模型引入人体关键点信息，加入了额外的监督信号，减少了遮挡及背景信息的干扰，在提高行人图文检索的准确率的同时，降低了人工标注成本。

主权项：1.一种基于融合关键点注意力引导的图文行人检索方法，其特征在于，包括以下步骤：S1.获取图文行人数据集和图像数据集，所述图文行人数据集为带有标签的数据集，所述图文行人数据集包括若干行人图像数据、与图像对应的行人文本数据，所述图像数据集为带有标签的图像数据集；S2.构建人体关键点检测模型，向人体关键点检测模型输入图像数据集，对人体关键点检测模型进行训练，得到训练好的人体关键点检测模型，所述人体关键点检测模型的骨干网络为ViT-B模型，所述ViT-B模型包括PatchEmbedding模块、Transformer模块和解码器模块构成，所述Transformer模块中包括编码器，所述Transformer模块中的编码器包括归一化层、多头自注意力层和前馈层，所述多头自注意力层包括多个自注意力模块；所述人体关键点检测模型的工作流程包括：向人体关键点检测模型输入图像向量，PatchEmbedding模块将图像向量分割为若个尺寸相同的patch，将所述若干个patch依次向Transformer模块进行输入，对于每个patch，将同一个patch同时输入多头自注意力层中所有自注意力模块中，每个自注意力模块对patch计算后输出一个向量，将得到的所有向量进行拼接后进行线性变换，得到与patch维度相同的预测结果；S3.构建CLIP模型，所述CLIP模型包括文本分支和图像分支，向CLIP模型和训练好的人体关键点检测模型输入图文行人数据集，根据交叉注意力机制，所述交叉注意力机制具体原理为：交叉注意力机制有两个不同的向量输入，分别为向量X1和向量X2，向量X1通过线性变换得到Query，向量X2通过线性变换得到Key和Value，将Query与Key进行点积，对点积后的结果通过归一化指数函数获得注意力权重Ws，将Ws与Value相乘，得到交叉注意力机制的输出，结合训练好的人体关键点检测模型的输出对CLIP模型进行训练，每一次训练中，向CLIP模型的图像分支输入一份行人图像数据，将图像分支输出的特征序列作为交叉注意力机制的输入向量X2，向人体关键点检测模型输入相同的行人图像数据，将人体关键点检测模型输出的特征序列作为交叉注意力机制的输入向量X1，得到交叉注意力机制的输出，将交叉注意力机制的输出作为图像分支的输出，向CLIP模型的文本分支输入对应的行人文本数据，获得文本分支的输出，根据图像分支的输出和文本分支的输出计算与数据集标签之间的损失，根据损失优化CLIP模型的参数，完成一次训练，进行若干次训练，直到训练次数达到预设阈值或是损失小于预设损失，结束训练，得到训练好的CLIP模型；S4.实时向训练好的CLIP模型输入行人图像以及行人文本，CLIP模型根据行人文本检索匹配行人图像中对应的行人。

全文数据：

权利要求：

百度查询：广东保伦电子股份有限公司一种基于融合关键点注意力引导的图文行人检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于实现低速清扫车自动行驶系统的方法

下一篇：路径规划方法、系统、设备及计算机可读存储介质

相关技术

一种用于实现低速清扫车自动行驶系统的方法

路径规划方法、系统、设备及计算机可读存储介质

点云配准方法、装置、存储介质、计算机设备和程序产品

一种稠油工况螺杆泵控制系统

一种粗氨气净化及制取液氨的装置及方法

ZnO/石墨烯复合材料、Zn杂化石墨烯阻燃环氧丙烯酸酯涂层及制备方法

一种水库运行管理与安全评价系统及安全评价方法

一种1-溴乙基乙酸酯的制备方法

电信网元实时处理方法、装置、设备、介质及程序产品

一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

一种纳米MoOx共晶体和太阳能光热发电板

一种竹浆纸制备用破碎分削切片装置

图文相关技术

一种图文匹配方法、图文匹配多模态大模型及大模型训练方法_杭州联汇科技股份有限公司_202411448052.5

图文数据增强、文生图模型的训练、图像生成方法_人保信息科技有限公司_202410956400.3

一种印刷有图文的食品包装热收缩膜_汕头市博雅印刷有限公司_202422520509.0

一种图文关联的目标跟踪网络训练方法及系统_武汉纺织大学_202410967904.5

一种基于多模态特征融合的高效图文检索方法及系统_武汉工程大学_202410578440.9

一种基于融合关键点注意力引导的图文行人检索方法_广东保伦电子股份有限公司_202411210396.2

一种图文设计裁剪装置_陕西恒创德诚建筑设计有限公司_202420013568.6

单向导湿面料用图文印花系统_郎溪远华纺织有限公司_202323562781.7

一种汉藏语多模态的图文处理方法及处理系统_北京网智天元大数据科技有限公司_202411201040.2

一种多尺度信息动态融合的遥感跨模态图文检索方法_广东工业大学_202410927476.3

引导相关技术

引导导管延伸件以及引导导管延伸件系统_业聚医疗私人有限公司_202411312747.0

一种融合三维在线剂量引导的多模式引导放疗装置_中科超精(南京)科技有限公司_202110919242.0

一种引导鞘管、引导鞘管组件及置入装置_湖南省华芯医疗器械有限公司_202411444859.1

施工引导系统的校准方法、施工引导系统及挖掘机_上海华测导航技术股份有限公司_202411026497.4

齿条引导件以及齿轮机构_奥依列斯工业株式会社_202380028454.7

图像引导后装治疗装置_戴建荣_202411307838.5

一种化纤纺丝引导装置_陕西国仁鑫德实业有限公司_202323376832.7

印刷包装设备纸张引导装置_烟台市裕同印刷包装有限公司_202420099444.4

具有凹陷的管线引导装置_椿本缆线牵引有限公司_202080044391.0

一种穿刺针引导装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202210633682.4

注意力相关技术

基于残差反向瓶颈和稀疏注意力的图像分割方法与系统_湖南工商大学_202411406045.9

一种基于注意力机制的早期烟雾检测方法_天泽智联科技股份公司_202410878280.X

基于卷积和多头自注意力的时序动作定位方法_杭州电子科技大学_202411456009.3

基于自交错注意力机制与扩散聚合的知识图谱嵌入方法_浙江大学_202410986681.7

一种自注意力驱动的相似性图像分类方法_合肥工业大学_202411390424.3

基于分层多尺度特征和注意力机制的心梗辅助验证方法_郑州轻工业大学_202411000473.1

一种基于多注意力机制的工件表面缺陷检测方法_中国科学院沈阳计算技术研究所有限公司_202411119182.4

一种模型注意力可视化方法及相关装置_国网湖南省电力有限公司电力科学研究院_202411428639.X

一种基于注意力机制的车辆轨迹预测方法_江苏大学_202411107822.X

一种基于注意力掩膜的红外图像彩色化方法_陕西师范大学_202410994786.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于融合关键点注意力引导的图文行人检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务