一种考虑场景文本位置关系的图文检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州电子科技大学

摘要：本发明公开了一种考虑场景文本位置关系的图文检索方法。首先准备数据，进行特征提取；然后进行图片端场景文本的特征融合，得到图片端的场景文本特征；再通过位置关系建模分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征；将两者进行融合，得到图片端的总特征；另一方面提取文本端的总特征最后根据文本总特征和图片总特征之间的相似度，取相似度最高的图片‑文本对作为检索的结果。通过考虑场景文本的位置关系，本发明提供了一种改进的方法，可以提高图文检索的准确性，改善多模态信息融合，并在处理含场景文本的任务中表现出色。这对于多种应用领域都具有重要意义，包括图像检索和图像生成。

主权项：1.一种考虑场景文本位置关系的图文检索方法，其特征在于，包括步骤如下：步骤1，数据准备；收集数据集，采用CTC数据集，此数据集是从COCO数据集中选取包含场景文本的图片组成的数据集；它由含场景文本的图片和对应文本组成；步骤2，特征提取；对图片中的显著性物体和场景文本进行特征提取，得到显著性物体的视觉特征和位置信息以及场景文本的内容信息、位置信息和视觉特征，为后续步骤提供必要的基础特征；步骤3，图片端场景文本的特征融合；首先，基于步骤2中得到的场景文本的内容信息，利用FastText和PHOC对场景文本进行语义嵌入和字符级嵌入；接着，将这些嵌入与场景文本的视觉特征进行融合，以获取更丰富和更全面的场景文本表示，最终得到图片端的场景文本特征；步骤4，位置关系建模；通过对图片端的场景文本的位置信息和图片端的显著性物体的位置信息进行显式的建模，得到场景文本和显著性物体构成的总集合中任意两两元素之间的位置关系；接着分别与步骤2得到的显著性物体的视觉特征以及步骤3得到的图片端的场景文本特征进行更新，利用图卷积网络GCN进行上述更新操作，分别得到图片端含位置关系的显著性物体特征和图片端含位置关系的场景文本特征；步骤5，将图片端含位置关系的显著性物体的特征与图片端含位置关系的场景文本特征进行融合，得到图片端的总特征；步骤6，提取文本端的总特征；先将与图片对应的文本进行tokenize化，然后再经过双向长短期记忆网络，得到文本端的总特征；步骤7，将得到的文本端的总特征与图片端的总特征通过对比学习进行训练，使得正样本对在图片-文本的公共空间中的距离更近，同时，使得负样本对在图片-文本的公共空间中的距离更远；有助于检索到匹配的数据；最后，根据文本总特征和图片总特征之间的相似度，取相似度最高的图片-文本对作为检索的结果。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种考虑场景文本位置关系的图文检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电池端板

下一篇：一种采空区储、净矿井水的方法

相关技术

一种电池端板

一种采空区储、净矿井水的方法

一种基于企业资源的职业教育的管理方法以及设备

一种家具耐用性综合测试平台及其测试方法

一种用于温控器的远程控制方法及系统

一种烟叶分拣定级用的翻转分料装置及方法

一种新能源汽车语音功能测试方法、系统及设备

一种Z型气动吸附的执行器结构

一种高速机械磨削主轴加工装置

一种神经内科用可缓解神经痛的助眠装置

一种变电站无人机巡视路径规划方法及系统

一种黄芩病虫害识别系统及方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种考虑场景文本位置关系的图文检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务