首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于对比学习和结构化信息增强多模态特征融合的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:之江实验室

摘要:本发明公开了一种基于对比学习和结构化信息增强多模态特征融合的方法,基于对比学习的多模态网络,通过利用结构化信息构造的正负样本数据,充分挖掘模态特征之间的对应关系,基于对应关系,注入结构化信息增强模态特征的融合;本发明通过对原始数据集中成对的图片、文本对中的文本数据进行结构化处理,获取文本数据中的对象、对象关系、对象属性等信息构造文本语义负样本和结构知识特征,结构知识特征注入到文本特征中后,在对比学习模块中与文本正样本和图片数据一起进行特征对齐,基于对齐特征送入特征融合模块进行特征融合。本发明充分利用文本模态的结构信息进行特征对齐以及利用融合特征进行联合优化,极大地提升了模型的多模态理解能力。

主权项:1.一种基于对比学习和结构化信息增强多模态特征融合的方法,其特征在于,包括以下步骤:(1)获取原始图片-文本对,并处理所述原始图片-文本对中的文本数据,得到所述文本数据的对象、对象间的关系以及对象自身属性的文本结构化信息;其中,所述对象包含文本中的主语、宾语以及表示主语、宾语自身的相关属性;所述相关属性为修饰主语、宾语的文字成分;(2)将所述步骤(1)得到的对象、对象间的关系以及对象自身属性的文本结构化信息进行对换,生成文本语义负样本;(3)对所述步骤(1)从原始图片-文本对中获得的主语、宾语以及表示主语、宾语自身的相关属性进行分词处理,获得主语、宾语以及表示主语、宾语自身的相关属性的词嵌入向量;对获得的词嵌入向量进行编码,得到结构知识特征;(4)提取原始图片-文本对以及所述步骤(2)得到的文本语义负样本的特征,得到视觉特征、文本特征;其中,将所述文本特征与步骤(3)得到的结构知识特征进行加权相加,并与视觉特征进行对比学习获取正负样本特征匹配度;通过构造标签,与正负特征匹配度共同作为输入,使用交叉熵损失函数来训练视觉编码器和文本编码器;(5)将所述步骤(4)得到的视觉特征和文本特征进行水平拼接,作为多层的模态信息融合模块的输入;将所述模态信息融合模块与所述步骤(4)的训练视觉编码器和文本编码器一起进行联合优化;(6)在所述步骤(5)联合优化后的模态信息融合模块、训练视觉编码器和文本编码器的基础上,添加自回归解码器,并输入相应的文本提示和答案,训练自回归解码器;(7)通过训练好的视觉编码器、文本编码器、模态信息融合模块和自回归解码器,提取待检索的原始图片特征,分别把图片和问题输入到视觉编码器和自回归解码器中,通过解码器生成最终问题的回答。

全文数据:

权利要求:

百度查询: 之江实验室 基于对比学习和结构化信息增强多模态特征融合的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。