首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于跨模态模型和空间指代关系建模的REC方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京工业大学

摘要:一种基于跨模态模型和空间指代关系建模的REC方法,包括:获取测试图像和对应的指代表达式;获取图像中的候选实体对应的预选框;分别预处理预选框和指代表达式;用预选框处理图片再预处理图片并设置有效视觉提示;分解预处理得到指代表达式为目标实体、参考关系和关系实体;若指代表达式中有关系实体,则将目标实体、参考关系和关系实体进行关系建模并组成关系网络;在关系网络中搜索目标实体,并将与目标实体有关联的参考关系和关系实体组成多条信息;计算预选框内图片是目标实体或关系实体的可能性;计算候选实体之间符合参考关系的概率;以目标实体相似度、关系实体相似度和参考关系概率的最高综合概率候选框内的视觉实体为所求目标实体。

主权项:1.一种基于跨模态模型和空间指代关系建模的REC方法,其特征在于,包括以下步骤:步骤1,获取测试图像和对应的指代表达式;步骤1中,图像为自然场景下含有多个实体的彩色图像;指代表达式所指代的目标实体与关系实体存在于彩色图片中;指代表达式中至少包含目标实体;指代表达式中包含或不包含对于目标实体或关系实体的修饰词和属性;指代表达式中包含或不包含参考关系;参考关系包括目标实体的相对关系和绝对关系;步骤2,获取图像中的候选实体对应的预选框;步骤3,分别对步骤2所得预选框和步骤1获得指代表达式进行预处理;对预选框的预处理方法是通过设定超参数,去除预选框占图片的比例小于超参数的预选框;对指代表达式的预处理方法是将难以分别词性的参考关系以及具有歧义的参考关系替换为效果相同的且不具有歧义的词语;步骤4,包括4.1先用步骤3所得预选框处理图片;4.2然后对处理后的图片进行预处理并设置有效的视觉提示;步骤4.1中,用预选框对图片进行处理的方式是依据预选框对原图进行切割和对原图进行模糊;a对原图进行切割是将预选框以外的部分全部去除,只留下预选框内部的图片;b对原图进行模糊是将预选框外的图片部分进行模糊处理;步骤4.2中,a对处理后的图片进行预处理的方法是通过图片切割网络提取被预选框处理后的图片中的实体;b设置有效的视觉提示的方法两种:粗糙的视觉提示和细粒度的视觉提示;步骤5,把步骤3预处理得到指代表达式分解为目标实体、参考关系和关系实体;若指代表达式中不含有关系实体,则进入步骤11;若指代表达式中含有关系实体,则进入步骤6;步骤6,将指代表达式分解出的目标实体、参考关系和关系实体进行关系建模并组成关系网络;关系建模是将出现在同一张图上的目标实体、参考关系和关系实体组成三元组并存储;一张图上的关系网络是多对三元组相互关联产生的网络;步骤7,在步骤6得到的关系网络中搜索目标实体,并将与目标实体有关联的参考关系和关系实体组成多条信息;步骤8,利用跨模态模型:a计算步骤7得到每条信息中目标实体语言特征与步骤4得到预选框内图片视觉特征的相似度,从而近似得到预选框内图片是目标实体的可能性;b计算步骤7得到每条信息中关系实体语言特征与步骤4得到预选框内图片视觉特征的相似度,从而近似得到候选框内图片是关系实体的可能性;所述跨模态模型是视觉与语言跨模态模型;步骤9,依据参考关系计算得到各个候选实体之间符合该参考关系的概率;步骤10,依据计算得到的每条信息的目标实体相似度、关系实体相似度和参考关系概率三者的综合概率,综合概率最高的候选框内的视觉实体即为语义表达式所指代的目标实体;步骤11,根据得到的参考关系对候选框进行筛选,将目标实体与筛选后的与预选框的图片进行相似度计算,输出相似度最高的预选框。

全文数据:

权利要求:

百度查询: 南京工业大学 基于跨模态模型和空间指代关系建模的REC方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。