一种基于时空关系增强的跨模态文本-视频检索方法

导航：龙图腾网> 最新专利技术> 一种基于时空关系增强的跨模态文本-视频检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：湖南大学

摘要：本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法，包括以下步骤：利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到视频特征；将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列，然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征，再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征；将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比；能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

主权项：1.一种基于时空关系增强的跨模态文本-视频检索方法，其特征在于，所述跨模态文本-视频检索方法包括以下步骤：1在视频方面，利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到时空关系增强后的视频特征；2对于文本方面，将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列，然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征，再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征；3最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比，文本和视频相关，相似度高，反之则相似度低，以此来检索相关视频；所述跨模态文本-视频检索方法还包括以下具体步骤：1视频嵌入向量学习；对于一个视频o，首先对其进行采样得到一个包含T个视频帧的长序列，分别使用预训练的2D卷积神经网络提取外观特征，使用预训练的3D卷积神经网络获得其运动特征；然后将这两个特征合并起来，得到最终的全局视频特征Fg；再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互，最终得到时空关系增强后的全局视频特征Fg；2对象关系嵌入向量学习；对于包含T个视频帧的长序列，采用预训练的FasterRCNN模型来检测每个帧内的对象区域，对于每个视频帧，提取N个对象区域其中yt是第t个局部对象区域的特征，然后将Yt输入到时空Transformer中，分别沿时间维度和空间维度对特征进行交互和融合；具体表达式如下：其中l＝1,2，...，L表示时空Transformer的总层数，最终得到细粒度视频关系特征Fr；3文本嵌入向量学习；对于查询文本部分，利用在大规模数据集上预训练的BERT模型对查询语句进行编码，该模型能学习查询语句中各个词之间的上下文关系，BERT包括12层Transformer模块；将查询语句输入到BERT中，最终得到全局文本特征Ft；4联合嵌入向量学习；提取到视频和文本两种模态的特征后，采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft，基于排序的三元损失函数表达式具体为：SVi，Ti表示视频Vi和文本Ti之间的相似度，具体表达式为：SVi，Ti＝λ·cosineFr，Ft+1-λ·cosineFg，Ft；cosine，为余弦相似度计算，表达式为：

全文数据：

权利要求：

百度查询：湖南大学一种基于时空关系增强的跨模态文本-视频检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于多维特征融合和傅里叶变换的明文检测报警系统

下一篇：车辆结构健康监测方法、装置、设备、系统及车辆

相关技术

一种基于多维特征融合和傅里叶变换的明文检测报警系统

车辆结构健康监测方法、装置、设备、系统及车辆

一种拔插式安装的矿灯

一种无掩膜的飞秒激光制造频率选择性吸波柔性薄膜材料的方法

具有红外吸收器的像素单元、像素阵列以及实现这种像素阵列的相机

一种水钻磨抛机的夹具移位装置

通信方法、电子设备及存储介质

一种多方向出风控制方法及除湿机

金刚石NV色心磁强测量系统及其应用

一种Cu、MoNbCu、MTDCuMo用无氟蚀刻液及其制备方法

一种用于调节阀的智能调节方法、设备及系统

在分布式基站架构中配置用于多播和/或广播服务的资源

模相关技术

一种绕线模_联盟自动化设备(苏州)有限公司_202010847836.0

一种鞋带模_惠州市隆昱精密模具有限公司_202323592587.3

一种汽车覆盖件冲压模用下模座_四川成飞集成科技股份有限公司_202323541058.0

一种发电机磁钢模上下模体结构_宁波市元宏电机模具制造有限公司_202323370712.6

隧道仰拱填充侧模支架_中铁二十局集团第四工程有限公司_202420443317.1

一种环模锪孔设备_溧阳市政林农牧机械有限公司_202410791810.7

涂布模头和涂布装置_宁德时代新能源科技股份有限公司_202421874040.4

一种过线模装置_北流市圭江龙电线电缆有限责任公司_202420347871.X

一种支架翻边模_山东潍坊福田模具有限责任公司_202420506399.X

连续模圆形侧壁刺破结构_苏州智绿科技股份有限公司_202323393394.5

文本相关技术

文本识别方法及相关装置_荣耀终端有限公司_202311808297.X

同步音频和文本生成_斯纳普公司_202180070331.0

文本翻译的方法、装置及存储介质_北京小米移动软件有限公司_202110524501.X

一种文本情感分析方法及系统_江西求是高等研究院_202411397003.3

文本处理方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202210255932.5

文本处理方法、装置及电子设备_优视科技(中国)有限公司_202410866155.7

文本补全方法以及电子设备、存储装置_科大讯飞(北京)有限公司_202011449650.6

文本处理方法、装置、设备及计算机可读存储介质_腾讯科技(深圳)有限公司_202210033962.1

一种语音文本联合预训练方法及系统_中国科学院自动化研究所_202210346308.6

基于改进Jieba分词的配电网检修文本信息提取方法_国网天津市电力公司电力科学研究院_202111108711.7

态相关技术

基于全用户态QUIC协议的多模式文件传输方法_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202411018405.8

一种气态及颗粒态污染物氧化潜势检测装置_复旦大学_202111538163.1

一种大功率热态锻镦熔接机及其熔接工艺_卡洛维德(常州)智能焊接装备有限公司_202411193090.0

一种高阶叠加态LG模式产生装置与产生方法_厦门大学_202410991023.7

一种中间价态钒氧化合物电子相变材料的制备方法_北京科技大学_202410923291.5

具有至少双峰态分子量分布的磺化聚亚芳基砜聚合物(sP)_巴斯夫欧洲公司_202380023911.3

一种含流态化高效氧化纤维状铜粉的微型含油轴承材料_中南大学_202211546118.5

一种适用于红外摄像机的三态隔热冷却装置_武汉科技大学_202010846496.X

基于多层前馈神经网络的涡轮导叶过渡态温度场预估方法_南京航空航天大学_202411251842.4

一种焦炉热态机焦侧炉头砌筑移动式吊篮结构及施工方法_中国五冶集团有限公司_202010546851.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于时空关系增强的跨模态文本-视频检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务