Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于全局与局部语义的视频-文本检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学(深圳)高等研究院

摘要:本发明公开了一种基于全局与局部语义的视频‑文本检索方法,构建包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型,全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度,局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度,再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型,通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。

主权项:1.一种基于全局与局部语义的视频-文本检索方法,其特征在于,包括以下步骤:S1:根据实际需要收集若干视频-文本训练样本对构成训练样本集,其中每个训练样本对包括一个文本X和与该文本对应的视频V;S2:构建视频-文本跨模态匹配模型,包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块,其中:文本特征提取模块用于对文本X进行序列长度标准化至预设文本长度NW,然后利用文本编码器对NW个单词进行编码得到词特征D表示预设的编码特征维度,并采用序列结束标识特征作为文本X的全局特征,然后将全局特征FX发送至全局交互模块,将词特征FW发送至局部交互模块;视频特征提取模块用于对视频V中视频帧进行采样得到Nf帧视频帧,然后利用图像编码器对Nf帧视频帧进行编码得到视频特征并发送至全局交互模块和局部交互模块;全局交互模块用于计算视频-文本全局语义相似度Sim1并发送至相似度融合模块,具体方法为:采用softmax函数计算文本特征与帧特征之间的权重αk: 其中,τ表示温度调节系数,上标T表示转置;基于权重αk聚合帧特征得到文本引导的视频特征 计算文本特征FX和视频特征之间的相似度,作为视频-文本全局语义相似度Sim1;局部交互模块用于计算视频-文本局部语义相似度Sim2并发送至相似度融合模块;局部交互模块包括共享Transformer编码器和相似度计算模块,其中:共享Transformer编码器包括NL个堆叠的Transformer编码块,用于分别对词特征FW和视频特征FV进行特征编码,得到文本和视频细粒度的概念语义特征CX和CV,特征编码的方法分别为:提取文本概念语义特征时,采用词特征FW作为键和值,采用文本待学习参数矩阵作为查询,Nq表示预设维度,将最后一层输出的查询作为文本概念语义特征并发送至相似度计算模块。提取视频概念语义特征时,采用视频特征FV作为键和值,采用视频待学习参数矩阵作为查询,将最后一层输出的查询作为视频概念语义特征并发送至相似度计算模块;相似度计算模块用于计算文本概念语义特征CX和视频概念语义特征CV的相似度作为视频-文本局部语义相似度Sim2;相似度融合模块用于对视频-文本全局语义相似度Sim1和视频-文本局部语义相似度Sim2进行融合得到最终的匹配度S;S3:采用步骤S1中的训练样本集对视频-文本跨模态匹配模型进行训练,得到训练好的视频-文本跨模态匹配模型;S4:当需要进行视频-文本检索时,将待检索的文本视频与备选视频文本分别成对输入步骤S3训练好的视频-文本跨模态匹配模型,得到对应的匹配度,再基于匹配度筛选出与待检索的文本视频相匹配的视频文本。

全文数据:

权利要求:

百度查询: 电子科技大学(深圳)高等研究院 基于全局与局部语义的视频-文本检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

-相关技术