买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南麓湖数据科技有限公司
摘要:本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法,所述文本‑视频检索方法包括以下步骤:1视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;2文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型BERT从查询文本中提取一组短语级的文本语义特征;3联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模,实现更好的跨模态检索性能。
主权项:1.一种基于细粒度跨模态对齐模型的文本-视频检索方法,其特征在于,所述文本-视频检索方法包括以下步骤:1视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;2文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型BERT从查询文本中提取一组短语级的文本语义特征;3联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;所述步骤三中具体包括以下步骤:首先定义无向二分图为G={V,E,X},其中V={x1,x2,...,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵λ=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索;所述图卷积编码器的具体运行方法如下:图卷积网络以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;通过内积相似度来构造图的边关系:A=φXφXT⊙M′;图卷积网络由几层相同构造的网络叠加在一起构成,单个图卷积层以定义为:堆叠多层图卷积网络的表达式为:网络的最终输出是Z1:L=[Z1,...,ZL];最后一层图卷积网络的输出作为节点表征;所述内积解码器的具体运行方法如下:内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵可表示为:
全文数据:
权利要求:
百度查询: 湖南麓湖数据科技有限公司 一种基于细粒度跨模态对齐模型的文本-视频检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。