一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

导航：龙图腾网> 最新专利技术> 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学(深圳)

摘要：本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质，该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤，本发明通过有监督训练的形式，充分利用训练多模态数据中的语义信息进行训练，同时引入多头目自注意力机制，捕捉视频和文本内部的细微交互，有选择性地关注多模态数据的关键信息来增强模型的表征能力，更好地挖掘数据语义，保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是：通过实验证明，本发明既可以有效保持数据在原始空间相似性，又能提高检索的准确率。

主权项：1.一种基于多头目自注意力机制的跨模态视频检索方法，其特征在于，包括如下步骤：视频编码步骤：对于给定的视频模态数据进行视频模态特征提取，利用特征向量{v1,v2...vn}来描述视频，vt表示视频的第t帧的特征，n表示视频的帧数，计算视频的多级特征表示视频全局特征编码，表示视频上下文特征编码，表示视频局部特征编码；文本编码步骤：给定一个长度为m的文本s，用独热编码表示文本s的每个单词，生成一个独热编码向量序列{w1,w2,.....,wm}，其中wt表示第t个单词的向量，计算文本的多级特征φs＝[fs1,fs2,fs3]，fs1是文本全局特征编码，fs2是文本上下文特征编码，fs3是文本局部特征编码；联合嵌入步骤：将编码后得到的视频的多级特征φv和文本的多级特征φs通过仿射转换映射到一个共享空间中，得到共享空间的视频特征向量fv和fs，从而生成向量表示；在所述视频编码步骤中，采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码，视频全局特征编码用来表示平均池化的编码结果，vt表示视频的第t帧的特征，视频的编码由视频中的每个帧的加权平均获得，即其中α＝softmaxω2tanhω1φvTω2和ω1是全连接层参数，αt为第t帧的权重；通过结合视频内容中重复出现的视觉特征和视频中的重要部分特征，得到视频全局特征编码：在所述视频编码步骤中，视频上下文特征编码 n为视频的帧数，ht为视频上下文对第t帧的交互值；在所述视频编码步骤中，视频局部特征编码其中，ct表示某帧的前后t帧对该帧的影响；在所述文本编码步骤中，文本全局特征编码fs1是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，将基于双向GRU的文本编码表示为fs2，将基于Bi-GRU-CNN的文本编码为fs3；在所述视频编码步骤中，对于给定的视频模态数据，每0.5秒抽取一帧，对于每一帧，采用ResNet-152版本的深度残差网络提取视频模态特征，并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化；选取深度残差网络的倒数第二层作为图片数据的编码，维度为2018维，随后，利用特征向量{v1,v2...vn}来描述视频，这里vt表示视频的第t帧的特征，n表示视频的帧数；在所述联合嵌入步骤中，将编码后得到的视频的多级特征φv和文本的多级特征φs利用全连接后加上批量正则层映射到一个共享空间中，参数Wv和Ws分别是BN表示BatchNormalization层，视频侧和文本侧的全连接的参数，视频侧和文本侧各自的参数是bv和bs，该跨模态视频检索方法还包括训练步骤，在所述训练步骤中，将视频特征向量fv和fs输入基于三元组的排序损失函数进行训练；基于三元组的排序损失函数：Lv,s；θ＝Lrv[max0,α-Sθv,s+Sθv,s-]+Lrs[max0,α-Sθv,s+Sθv-,s]其中α是距离常数，s-和v-分别表示一个相对于视频v的句子负样本，相对于句子v的视频负样本，这两个负样本不是随机选取的，是根据每一个batch中最相似的非样本对选择；L.为不同秩的加权函数，对于视频嵌入v,rv是所有跟v比较的句子中的秩；对于一个文本嵌入s，rs是所有比较的视频中匹配视频嵌入v的秩；损失是基于在检索结果中正确匹配的相对排名的基于权重的惩罚；如果正匹配在列表中名列前茅，那么L.将把一小部分重量分配给损失，而不会使损失造成太大的损失；然而，如果一个正匹配不是排在最前面，L.将分配一个大得多的权重给损失，这最终会将正匹配的对推到最前面。

全文数据：

权利要求：

百度查询：哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种材料转运用可调节式托盘架

下一篇：一种复合补强片

相关技术

一种材料转运用可调节式托盘架

一种复合补强片

一种机械零件加工用工作台

一种能够调节的建筑幕墙防脱落装置

一种免铆接保险管安装座

一种汽车仪表台生产模具

一种管壳式换热器进液口的密封装置

一种公路转孔取芯装置

一种光电复合型卷筒电缆

果丹皮蒸汽融糖车间

一种环保园区污水处理用沉淀池

一种耐寒高弹性电源线

模相关技术

刀模挂装机构_新华柏纸品(东莞)有限公司_202421128872.1

一种超厚高弹泡棉模切装置及其模切方法_苏州久泰精密技术股份有限公司_202411131242.4

胶带纸管装卸机开模、关模取轴机构及其胶带纸管装卸机_太仓市伦友精工机械有限公司_201910213255.9

底模内循环开模布料管桩生产线_江苏汤辰机械装备制造股份有限公司_202420155560.3

验证模体及放射治疗设备_西安大医集团股份有限公司_202110354072.6

带抽芯装置的吹瓶模_佛山市百进一精密技术有限公司_202323573579.4

一种铝模拼装结构_浙江佳成和合建设有限公司_202420405630.6

路基边沟快速支模装置_中交雄安建设有限公司_202420551313.5

集成式消失模模具_洛阳刘氏模具有限公司_202110499431.7

一种带独立风冷结构的挤出模头模唇开口自动微调结构_浙江精诚模具机械有限公司_201810860144.2

检索相关技术

图像检索方法、商标检索方法、电子设备以及存储介质_中国科学院深圳先进技术研究院_202110580509.8

一种检索服务的质检方法及装置、检索方法、设备、介质_深圳依时货拉拉科技有限公司_202411012900.8

视频检索方法、装置及计算机设备_浙江华诺康科技有限公司_202411472299.0

车辆检索方法、装置及电子设备_北京千方科技股份有限公司_202411223571.1

基于知识图谱的检索方法及装置_北京金山数字娱乐科技有限公司_202111287340.3

一种银行产品问题检索方法及装置_中国银行股份有限公司_202111425867.8

用于数据检索的方法和装置_中国建设银行股份有限公司_202111574359.6

基于双流Transformer的视频时刻检索方法及系统_山东大学_202210065751.6

基于大模型和用户信息检索增强的轻量化对话推荐方法_杭州电子科技大学_202411054962.5

一种基于损伤特征的近场空间谱检索方法_中国电子科技集团公司第五十四研究所_202411239904.X

视频相关技术

自动内窥镜视频增强_CMR外科有限公司_201980065312.1

视频拍摄位置校正装置_江翠平_202421293126.8

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410980097.0

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410979781.7

在视频解码器中进行视频解码的方法、装置和存储介质_腾讯美国有限责任公司_202280005838.2

车辆视频检测方法、车辆视频检测装置和可读存储介质_北京嘀嘀无限科技发展有限公司_202010071919.5

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410980426.1

视频解码方法、视频编码方法、相关设备及存储介质_腾讯科技(深圳)有限公司_202011416242.0

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410979900.9

一种视频流中微表情视频序列的检测方法及装置_中国电子科技集团公司电子科学研究院_202210021817.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务