基于全局与局部语义的视频-文本检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学(深圳)高等研究院

摘要：本发明公开了一种基于全局与局部语义的视频‑文本检索方法，构建包括文本特征提取模块，视频特征提取模块，全局交互模块，局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型，全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度，局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度，再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型，通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。

主权项：1.一种基于全局与局部语义的视频-文本检索方法，其特征在于，包括以下步骤：S1：根据实际需要收集若干视频-文本训练样本对构成训练样本集，其中每个训练样本对包括一个文本X和与该文本对应的视频V；S2：构建视频-文本跨模态匹配模型，包括文本特征提取模块，视频特征提取模块，全局交互模块，局部交互模块和相似度融合模块，其中：文本特征提取模块用于对文本X进行序列长度标准化至预设文本长度NW，然后利用文本编码器对NW个单词进行编码得到词特征D表示预设的编码特征维度，并采用序列结束标识特征作为文本X的全局特征，然后将全局特征FX发送至全局交互模块，将词特征FW发送至局部交互模块；视频特征提取模块用于对视频V中视频帧进行采样得到Nf帧视频帧，然后利用图像编码器对Nf帧视频帧进行编码得到视频特征并发送至全局交互模块和局部交互模块；全局交互模块用于计算视频-文本全局语义相似度Sim1并发送至相似度融合模块，具体方法为：采用softmax函数计算文本特征与帧特征之间的权重αk：其中，τ表示温度调节系数，上标T表示转置；基于权重αk聚合帧特征得到文本引导的视频特征计算文本特征FX和视频特征之间的相似度，作为视频-文本全局语义相似度Sim1；局部交互模块用于计算视频-文本局部语义相似度Sim2并发送至相似度融合模块；局部交互模块包括共享Transformer编码器和相似度计算模块，其中：共享Transformer编码器包括NL个堆叠的Transformer编码块，用于分别对词特征FW和视频特征FV进行特征编码，得到文本和视频细粒度的概念语义特征CX和CV，特征编码的方法分别为：提取文本概念语义特征时，采用词特征FW作为键和值，采用文本待学习参数矩阵作为查询，Nq表示预设维度，将最后一层输出的查询作为文本概念语义特征并发送至相似度计算模块。提取视频概念语义特征时，采用视频特征FV作为键和值，采用视频待学习参数矩阵作为查询，将最后一层输出的查询作为视频概念语义特征并发送至相似度计算模块；相似度计算模块用于计算文本概念语义特征CX和视频概念语义特征CV的相似度作为视频-文本局部语义相似度Sim2；相似度融合模块用于对视频-文本全局语义相似度Sim1和视频-文本局部语义相似度Sim2进行融合得到最终的匹配度S；S3：采用步骤S1中的训练样本集对视频-文本跨模态匹配模型进行训练，得到训练好的视频-文本跨模态匹配模型；S4：当需要进行视频-文本检索时，将待检索的文本视频与备选视频文本分别成对输入步骤S3训练好的视频-文本跨模态匹配模型，得到对应的匹配度，再基于匹配度筛选出与待检索的文本视频相匹配的视频文本。

全文数据：

权利要求：

百度查询：电子科技大学(深圳)高等研究院基于全局与局部语义的视频-文本检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种废水池养鱼鱼池

下一篇：一种纺织面料加工的除皱整理装置

相关技术

一种废水池养鱼鱼池

一种纺织面料加工的除皱整理装置

一种便于取放的医疗背囊

一种垂直起降固定翼无人机

一种小导管余料自动对焊设备

一种立式固井供液罐

环保可降解梭织双面绒面料混纺纤维丝复合机构

一种建筑工程钢材运输装置

一种用于衣物回收的大型自助回收设备

一种减速机齿轮的表处理装置

一种混凝土地面浇水养护装置

一种节能注塑机余料回收装置

视频相关技术

一种视频喉镜_深圳市保安医疗用品有限公司_202323570010.2

斗轮机视频监控设备_广东粤电大埔发电有限公司_202323402875.8

高效实时视频拼接方法_中国人民解放军海军航空大学_202411139385.X

一种视频文件输出方法、装置及视频文件播放方法_联想(北京)有限公司_202411155137.4

视频业务感知方法、装置、视频传输设备及接收设备_中国移动通信有限公司研究院_202010905409.3

一种用于智慧视频生成的视频数据采集方法及系统_浩神科技(北京)有限公司_202411107806.0

传输视频编码的通用约束信息_OPPO广东移动通信有限公司_202411250760.8

视频字幕生成系统和方法_脸萌有限公司_202410555611.6

视频生成方法及装置_支付宝(杭州)信息技术有限公司_202311338422.5

对视频进行解码和编码的方法以及用于发送压缩视频数据的装置_株式会社KT_202411263905.8

-相关技术

文本相关技术

文本分类方法、文本查找方法、装置、设备及介质_北京拓普丰联信息科技股份有限公司_202411045386.8

文本处理方法及装置_恒生电子股份有限公司_202411000017.7

一种文本事件关系提取方法、装置_支付宝(杭州)信息技术有限公司_202410917317.5

文本到人体动作合成方法及装置_世优宇宙(成都)科技有限公司_202411044244.X

基于实体描述的文本生成方法_清华大学_202210520980.2

文本翻译方法、装置、电子设备和存储介质_中国科学技术大学_202111577763.9

标准文本处理方法、装置、设备及介质_中国电子技术标准化研究院_202410785324.4

文本摘要模型的训练方法及装置_阿里巴巴(中国)有限公司_202210374234.7

文本生成方法、装置、设备和存储介质_深圳依时货拉拉科技有限公司_202410970513.9

召回文本推荐方法、装置、设备及存储介质_平安科技(深圳)有限公司_202210241295.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于全局与局部语义的视频-文本检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务