买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南大学
摘要:本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法,包括以下步骤:利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到视频特征;将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征;将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比;能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。
主权项:1.一种基于时空关系增强的跨模态文本-视频检索方法,其特征在于,所述跨模态文本-视频检索方法包括以下步骤:1在视频方面,利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到时空关系增强后的视频特征;2对于文本方面,将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征;3最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比,文本和视频相关,相似度高,反之则相似度低,以此来检索相关视频;所述跨模态文本-视频检索方法还包括以下具体步骤:1视频嵌入向量学习;对于一个视频o,首先对其进行采样得到一个包含T个视频帧的长序列,分别使用预训练的2D卷积神经网络提取外观特征,使用预训练的3D卷积神经网络获得其运动特征;然后将这两个特征合并起来,得到最终的全局视频特征Fg;再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互,最终得到时空关系增强后的全局视频特征Fg;2对象关系嵌入向量学习;对于包含T个视频帧的长序列,采用预训练的FasterRCNN模型来检测每个帧内的对象区域,对于每个视频帧,提取N个对象区域其中yt是第t个局部对象区域的特征,然后将Yt输入到时空Transformer中,分别沿时间维度和空间维度对特征进行交互和融合;具体表达式如下: 其中l=1,2,...,L表示时空Transformer的总层数,最终得到细粒度视频关系特征Fr;3文本嵌入向量学习;对于查询文本部分,利用在大规模数据集上预训练的BERT模型对查询语句进行编码,该模型能学习查询语句中各个词之间的上下文关系,BERT包括12层Transformer模块;将查询语句输入到BERT中,最终得到全局文本特征Ft;4联合嵌入向量学习;提取到视频和文本两种模态的特征后,采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft,基于排序的三元损失函数表达式具体为:SVi,Ti表示视频Vi和文本Ti之间的相似度,具体表达式为:SVi,Ti=λ·cosineFr,Ft+1-λ·cosineFg,Ft;cosine,为余弦相似度计算,表达式为:
全文数据:
权利要求:
百度查询: 湖南大学 一种基于时空关系增强的跨模态文本-视频检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。