基于双流Transformer的视频时刻检索方法及系统

导航：龙图腾网> 最新专利技术> 基于双流Transformer的视频时刻检索方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学

摘要：本发明属于视频时刻检索技术领域，涉及一种基于双流Transformer的视频时刻检索方法及系统。本发明引入了Transformer的交互机制，在视觉和文本模态之间关注全局与局部信息。使用自注意力模型学习局部信息；另一方面使用跨模态注意力机制着手于全局差异，从而实现两模态特征的更新，再将两者组合，得到视频与查询文本之间的关系。将融合好的特征经过多层感知机，得到连续的时序置信分数及开始结束时刻概率以确定最终目标片段。本发明算法完备，结构设计合理，能够更好捕捉到视觉特征和文本特征，显著提高了视频时刻检索的精度。同时对于长视频，能够更好的找到与文本描述相对应的视频片段，提升了本发明的性能和稳定性。

主权项：1.一种基于双流Transformer的视频时刻检索方法，其特征在于，包括如下步骤：获取待处理的视频；使用I3D网络扩提取所有视频片段的特征信息；获取待处理的自然语言查询语句；使用Glove及双向LSTM提取查询语句特征；双流Transformer特征交互，获取视频与文本模态局部与全局信息，捕捉语言和长短视频之间的交互信息；滑动多层感知机，以端到端的模型捕获长视频完整时序信息，推理出最佳预测片段；具体步骤如下：S1：特征提取，使用膨胀3D卷积神经网络提取视频和查询语句的特征；S2：基于双流Transformer的模态融合，获取视频与查询语句模态的局部和全局的特征，加强语言和视觉领域之间的交互信息；S2-1：视频级Transformer分支流，包含一个自注意力和一个双注意力模块；首先将查询语句特征进行线性变化，根据自注意力机制，得到关键向量Kq和数值向量Vq；再将查询语句进行线性变化，得到视频的查询向量Qv，以便于引导双模态交互及视频内局部信息重点关注，通过指导向量，让视频内相关匹配片段得到更多权重，不相关的片段得到更少的权重，公式如下：，其中，fc是多层感知机，Fv是视频特征，FQ是文本特征，，，分别是对应网络待学习的参数；再引用双注意力模块，公式如下：，其中MA代表通用的多头注意力模型；S2-2：文本级Transformer分支流，包含一个自注意力和一个双注意力模块；首先将视频特征进行线性变化，根据自注意力机制，得到关键向量Kv和数值向量Vv；再将查询文本进行线性变化，得到视频的查询向量Qq，引导双模态交互及视频内局部信息重点关注，通过指导向量，让视频内相关匹配片段得到更多权重，不相关的片段得到更少的权重，公式如下：，其中，fc是多层感知机，Fv是视频特征，FQ是文本特征，，，分别是对应网络待学习的参数；再引用双注意力模块，公式如下：，其中MA代表通用的多头注意力模型；交互后的视频及文本分别更新为和，将和融合：；S3：定位回归模块，将步骤S2中得到的融合特征经过多层感知机得到匹配分数；对所述匹配分数再经过多层感知机并均一化得到视频每一帧的起止概率，表示如下：，S4：损失计算，匹配分数损失和位置损失，先使用二元交叉熵损失，用作计算视频-查询语言描述对的匹配程度；再使用交叉熵损失函数，用作计算开始与结束的时间，表示如下：，其中BE代表通用二元交叉熵损失，CE代表交叉熵损失，scogt代表每帧真实匹配分数标签，score代表预测分数，start和end分别代表目标片段的预测起止概率，和分别代表目标片段真实的起止时间；S5：推理阶段，当匹配分数从高到低时，代表该帧为候选时刻的结束时刻；当匹配分数从低到高时，代表该帧为候选时刻的开始时刻；选择开始时刻和结束时刻相乘联合概率最高的视频时刻，输出结果。

全文数据：

权利要求：

百度查询：山东大学基于双流Transformer的视频时刻检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：光学成像系统

下一篇：一种新材料双扇防护密闭门

相关技术

光学成像系统

一种新材料双扇防护密闭门

一种推广信息处理方法、装置、存储介质及电子设备

用于跨平台渲染的方法、装置、计算机可读介质和计算机程序产品

一种焊接机器人预测性维护方法、系统、介质及设备

氨气处理系统及氨气处理方法

一种锂电池极片辊压设备

一种快速结晶装置

一种立轴冲击破分料系统

一种陶瓷材料氙灯老化箱

一种校园结伴行为分析方法

一种基于量子加密算法的财务数据安全存储方法及装置

时刻相关技术

石墨化炉送电结束时刻判定方法、装置及可读存储介质_湖南华夏特变股份有限公司_202411170956.6

一种疲劳试验中载荷峰值时刻图像获取方法_中国飞机强度研究所_202411153107.X

一种确定激光烧穿时刻的方法、系统和计算机设备_中国人民解放军国防科技大学_202211242416.5

基于双脉冲激光回波差分信号的脉冲时刻鉴别电路及系统_重庆航伟光电科技有限公司_202411156956.0

同期合闸脉冲时刻计算方法、系统、存储介质及设备_深圳南瑞科技有限公司_202411448636.2

一种基于DQN实现公交上下行动态均衡时刻表生成方法_广州交信投科技股份有限公司_202410915199.4

一种曝光时刻卫星姿态获取方法及系统_北京中关村智连安全科学研究院有限公司_202410952925.X

BNCT放射剂量获取方法、放射中止时刻的获取方法、终端及介质_华硼中子科技(杭州)有限公司_202411397231.0

一种测量模数转换器的转换时刻和转换时长的方法、模数转换器及单片机_苏州利氪科技有限公司_202411391165.6

迭代计算星载滑聚SAR场景中心时刻的方法、星载合成孔径雷达_中国电子科技集团公司第十四研究所_202410873112.1

检索相关技术

图像检索方法、商标检索方法、电子设备以及存储介质_中国科学院深圳先进技术研究院_202110580509.8

一种检索服务的质检方法及装置、检索方法、设备、介质_深圳依时货拉拉科技有限公司_202411012900.8

视频检索方法、装置及计算机设备_浙江华诺康科技有限公司_202411472299.0

车辆检索方法、装置及电子设备_北京千方科技股份有限公司_202411223571.1

一种银行产品问题检索方法及装置_中国银行股份有限公司_202111425867.8

基于知识图谱的检索方法及装置_北京金山数字娱乐科技有限公司_202111287340.3

用于数据检索的方法和装置_中国建设银行股份有限公司_202111574359.6

基于双流Transformer的视频时刻检索方法及系统_山东大学_202210065751.6

基于大模型和用户信息检索增强的轻量化对话推荐方法_杭州电子科技大学_202411054962.5

一种基于损伤特征的近场空间谱检索方法_中国电子科技集团公司第五十四研究所_202411239904.X

视频相关技术

自动内窥镜视频增强_CMR外科有限公司_201980065312.1

视频拍摄位置校正装置_江翠平_202421293126.8

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410980097.0

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410979781.7

在视频解码器中进行视频解码的方法、装置和存储介质_腾讯美国有限责任公司_202280005838.2

车辆视频检测方法、车辆视频检测装置和可读存储介质_北京嘀嘀无限科技发展有限公司_202010071919.5

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410980426.1

视频解码方法、视频编码方法、相关设备及存储介质_腾讯科技(深圳)有限公司_202011416242.0

视频解码方法和设备以及视频编码方法和设备_三星电子株式会社_202410979900.9

一种视频流中微表情视频序列的检测方法及装置_中国电子科技集团公司电子科学研究院_202210021817.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于双流Transformer的视频时刻检索方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务