买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明属于视频时刻检索技术领域,涉及一种基于双流Transformer的视频时刻检索方法及系统。本发明引入了Transformer的交互机制,在视觉和文本模态之间关注全局与局部信息。使用自注意力模型学习局部信息;另一方面使用跨模态注意力机制着手于全局差异,从而实现两模态特征的更新,再将两者组合,得到视频与查询文本之间的关系。将融合好的特征经过多层感知机,得到连续的时序置信分数及开始结束时刻概率以确定最终目标片段。本发明算法完备,结构设计合理,能够更好捕捉到视觉特征和文本特征,显著提高了视频时刻检索的精度。同时对于长视频,能够更好的找到与文本描述相对应的视频片段,提升了本发明的性能和稳定性。
主权项:1.一种基于双流Transformer的视频时刻检索方法,其特征在于,包括如下步骤:获取待处理的视频;使用I3D网络扩提取所有视频片段的特征信息;获取待处理的自然语言查询语句;使用Glove及双向LSTM提取查询语句特征;双流Transformer特征交互,获取视频与文本模态局部与全局信息,捕捉语言和长短视频之间的交互信息;滑动多层感知机,以端到端的模型捕获长视频完整时序信息,推理出最佳预测片段;具体步骤如下:S1:特征提取,使用膨胀3D卷积神经网络提取视频和查询语句的特征;S2:基于双流Transformer的模态融合,获取视频与查询语句模态的局部和全局的特征,加强语言和视觉领域之间的交互信息;S2-1:视频级Transformer分支流,包含一个自注意力和一个双注意力模块;首先将查询语句特征进行线性变化,根据自注意力机制,得到关键向量Kq和数值向量Vq;再将查询语句进行线性变化,得到视频的查询向量Qv,以便于引导双模态交互及视频内局部信息重点关注,通过指导向量,让视频内相关匹配片段得到更多权重,不相关的片段得到更少的权重,公式如下: ,其中,fc是多层感知机,Fv是视频特征,FQ是文本特征,,,分别是对应网络待学习的参数;再引用双注意力模块,公式如下: ,其中MA代表通用的多头注意力模型;S2-2:文本级Transformer分支流,包含一个自注意力和一个双注意力模块;首先将视频特征进行线性变化,根据自注意力机制,得到关键向量Kv和数值向量Vv;再将查询文本进行线性变化,得到视频的查询向量Qq,引导双模态交互及视频内局部信息重点关注,通过指导向量,让视频内相关匹配片段得到更多权重,不相关的片段得到更少的权重,公式如下: ,其中,fc是多层感知机,Fv是视频特征,FQ是文本特征,,,分别是对应网络待学习的参数;再引用双注意力模块,公式如下: ,其中MA代表通用的多头注意力模型;交互后的视频及文本分别更新为和,将和融合:;S3:定位回归模块,将步骤S2中得到的融合特征经过多层感知机得到匹配分数;对所述匹配分数再经过多层感知机并均一化得到视频每一帧的起止概率,表示如下: ,S4:损失计算,匹配分数损失和位置损失,先使用二元交叉熵损失,用作计算视频-查询语言描述对的匹配程度;再使用交叉熵损失函数,用作计算开始与结束的时间,表示如下: ,其中BE代表通用二元交叉熵损失,CE代表交叉熵损失,scogt代表每帧真实匹配分数标签,score代表预测分数,start和end分别代表目标片段的预测起止概率,和分别代表目标片段真实的起止时间;S5:推理阶段,当匹配分数从高到低时,代表该帧为候选时刻的结束时刻;当匹配分数从低到高时,代表该帧为候选时刻的开始时刻;选择开始时刻和结束时刻相乘联合概率最高的视频时刻,输出结果。
全文数据:
权利要求:
百度查询: 山东大学 基于双流Transformer的视频时刻检索方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。