买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学(深圳)
摘要:本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质,该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤,本发明通过有监督训练的形式,充分利用训练多模态数据中的语义信息进行训练,同时引入多头目自注意力机制,捕捉视频和文本内部的细微交互,有选择性地关注多模态数据的关键信息来增强模型的表征能力,更好地挖掘数据语义,保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是:通过实验证明,本发明既可以有效保持数据在原始空间相似性,又能提高检索的准确率。
主权项:1.一种基于多头目自注意力机制的跨模态视频检索方法,其特征在于,包括如下步骤:视频编码步骤:对于给定的视频模态数据进行视频模态特征提取,利用特征向量{v1,v2...vn}来描述视频,vt表示视频的第t帧的特征,n表示视频的帧数,计算视频的多级特征表示视频全局特征编码,表示视频上下文特征编码,表示视频局部特征编码;文本编码步骤:给定一个长度为m的文本s,用独热编码表示文本s的每个单词,生成一个独热编码向量序列{w1,w2,.....,wm},其中wt表示第t个单词的向量,计算文本的多级特征φs=[fs1,fs2,fs3],fs1是文本全局特征编码,fs2是文本上下文特征编码,fs3是文本局部特征编码;联合嵌入步骤:将编码后得到的视频的多级特征φv和文本的多级特征φs通过仿射转换映射到一个共享空间中,得到共享空间的视频特征向量fv和fs,从而生成向量表示;在所述视频编码步骤中,采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码,视频全局特征编码用来表示平均池化的编码结果,vt表示视频的第t帧的特征,视频的编码由视频中的每个帧的加权平均获得,即 其中α=softmaxω2tanhω1φvTω2和ω1是全连接层参数,αt为第t帧的权重;通过结合视频内容中重复出现的视觉特征和视频中的重要部分特征,得到视频全局特征编码:在所述视频编码步骤中,视频上下文特征编码 n为视频的帧数,ht为视频上下文对第t帧的交互值;在所述视频编码步骤中,视频局部特征编码其中,ct表示某帧的前后t帧对该帧的影响;在所述文本编码步骤中,文本全局特征编码fs1是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的,将基于双向GRU的文本编码表示为fs2,将基于Bi-GRU-CNN的文本编码为fs3;在所述视频编码步骤中,对于给定的视频模态数据,每0.5秒抽取一帧,对于每一帧,采用ResNet-152版本的深度残差网络提取视频模态特征,并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化;选取深度残差网络的倒数第二层作为图片数据的编码,维度为2018维,随后,利用特征向量{v1,v2...vn}来描述视频,这里vt表示视频的第t帧的特征,n表示视频的帧数;在所述联合嵌入步骤中,将编码后得到的视频的多级特征φv和文本的多级特征φs利用全连接后加上批量正则层映射到一个共享空间中,参数Wv和Ws分别是BN表示BatchNormalization层,视频侧和文本侧的全连接的参数,视频侧和文本侧各自的参数是bv和bs,该跨模态视频检索方法还包括训练步骤,在所述训练步骤中,将视频特征向量fv和fs输入基于三元组的排序损失函数进行训练;基于三元组的排序损失函数:Lv,s;θ=Lrv[max0,α-Sθv,s+Sθv,s-]+Lrs[max0,α-Sθv,s+Sθv-,s]其中α是距离常数,s-和v-分别表示一个相对于视频v的句子负样本,相对于句子v的视频负样本,这两个负样本不是随机选取的,是根据每一个batch中最相似的非样本对选择;L.为不同秩的加权函数,对于视频嵌入v,rv是所有跟v比较的句子中的秩;对于一个文本嵌入s,rs是所有比较的视频中匹配视频嵌入v的秩;损失是基于在检索结果中正确匹配的相对排名的基于权重的惩罚;如果正匹配在列表中名列前茅,那么L.将把一小部分重量分配给损失,而不会使损失造成太大的损失;然而,如果一个正匹配不是排在最前面,L.将分配一个大得多的权重给损失,这最终会将正匹配的对推到最前面。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。