一种基于多模态信息融合的视频检索方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东浪潮科学研究院有限公司

摘要：本发明提出一种基于多模态信息融合的视频检索方法及系统，属于人工智能设备技术领域，包括：获取视频并处理得到视频数据，视频数据包括视频摘要、音频、字幕、封面和关键帧；将视频数据进行向量化处理得到视频数据向量，并映射到同一高维向量数据库进行存库；获取用户查询，对用户查询进行分析获得用户意图，根据用户意图匹配最优的检索方案，并从向量数据库中检索得到目标视频；实现了视频关键信息的准确表征，提高了视频关键信息提取能力以及视频检索的精度。

主权项：1.一种基于多模态信息融合的视频检索方法，其特征在于，包括：获取视频并处理得到视频数据，视频数据包括视频摘要、音频、字幕、封面和关键帧；获取视频并处理得到视频数据步骤包括：视频摘要生成、音视频通道拆分、音频处理、封面处理和关键帧提取；视频摘要生成：通过多模态大模型工具结合提示工程对视频信息进行摘要总结，得到视频摘要，多模态大模型工具结合提示工程采用Video-LLaMa模型；音视频通道拆分：通过内置工具将各种格式的视频文件进行通道拆分，得到视频信息和音频信息，内置工具采用ffmpeg工具；音频处理：通过ASR算法对音频进行转文本操作得到文本字幕，使用paraformer语音翻译模型得到一段文本，及每个字符对应的起始时间戳和结束时间戳，通过langchain工具对文本按照标点符号进行分段获得若干文本段，提取每个文本段第一个字符的起始时间戳和最后一个字符的结束时间戳作为这段文本的起始、结束时间戳，最后整合所有文本段及其对应时间区间生成字幕文本；封面处理：提取视频封面图片通过OCR识别模型得到封面文本以及封面图像；关键帧提取：通过将视频输入关键帧提取模型输出视频关键帧列表，视频输入关键帧提取模型采用TransNetV2模型，通过TransNetV2模型对视频信息进行推理识别，输出视频关键帧列表；将视频数据进行向量化处理得到视频数据向量，并映射到同一高维向量数据库进行存库；所述将视频数据进行向量化处理得到视频数据向量，并映射到同一高维向量数据库进行存库步骤包括：通过多模态embedding模型ImageBind对视频摘要、音频信息、文本字幕、封面文本、封面图像、视频关键帧列表进行向量化处理得到摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、视频关键帧向量；将得到的摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、视频关键帧向量及对应元数据视频摘要、文本字幕、封面文本打包存入向量数据库；获取用户查询，对用户查询进行分析获得用户意图，根据用户意图匹配最优的检索方案，并从向量数据库中检索得到目标视频；所述检索方案通过预先设置视频数据向量中多种向量的权重，进行加权融合获得；所述根据用户意图匹配最优的检索方案步骤包括：根据用户意图设置不同的检索方案，将用户问题送入embedding模型进行向量化得到查询向量，分别计算其与摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、关键帧向量的相似性得分通过weightedranker策略计算最终得分：其中，为向量对应的相似性得分，对应为向量对应的权重；根据最终得分S对检索到的视频进行排序，得到相关视频；采用BM25算法计算封面文本与视频摘要和字幕文本的相似度Score：是文档D与查询Q的相关性得分，是查询Q中的第i个词项，是词项的逆文档频率，是词项在文档D中的出现频率，是文档D的长度，是语料库中所有文档的平均长度，和是调节参数，取和。

全文数据：

权利要求：

百度查询：山东浪潮科学研究院有限公司一种基于多模态信息融合的视频检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电力U型抱箍生产设备

下一篇：一种立轴冲击式破碎机的转子结构

相关技术

一种电力U型抱箍生产设备

一种立轴冲击式破碎机的转子结构

信号处理方法、装置及基站

一种曲柄摇杆式道闸机芯

轴向磁通电机

一种导电布精准裁切装置

杆线收放电机与展开机构

一种向列相液晶组合物、液晶显示元件及液晶显示器

一种用于球墨铸铁井盖生产的打磨装置

一种刚性连接的宽频带复合型钢轨动力吸振装置

一种激光焊机焊轮在线除渣装置及方法

一种可控喷出量和喷出频率的精密喷头

视频相关技术

处理多层视频流_维诺瓦国际有限公司_202280088309.3

视频处理方法_中移互联网有限公司_202411139409.1

视频转码中元数据的处理方法、视频转码设备及电子设备_镕铭微电子(济南)有限公司_202110968111.1

电子设备、包括其的视频系统及用于生成测试视频的方法_三星电子株式会社_202410529643.9

视频拍摄信息获取方法，及视频拍摄和处理指示方法_上海幻电信息科技有限公司_202110801309.0

基于金融行业低带宽高清视频会议系统及视频传输方法_东方通信股份有限公司_202410954079.5

使用扩散模型进行视频编辑_谷歌有限责任公司_202480001938.7

雷达视频一体机_四川数字交通科技股份有限公司_202420031925.1

块分区图像及视频数据_联发科技股份有限公司_202380028739.0

对视频进行解码和编码的方法以及用于发送压缩视频数据的装置_株式会社KT_202411264061.9

融合相关技术

IPTV融合网关升级方法、机顶盒、融合网关及介质_四川天邑康和通信股份有限公司_202411396825.X

VEGFR-抗体轻链融合蛋白_免疫苏醒公司_201880075518.8

一种脊柱融合器_蓬安县人民医院_202420327145.1

融合多环境要素的叶片除冰实验平台_国网湖南省电力有限公司_202410998769.0

一种融合开关的防水罩结构_厦门新能融合开关有限公司_202420482098.8

融合图像校正方法、装置及成像系统_苏州华兴源创科技股份有限公司_202411146646.0

一种可撑开腰椎椎间融合器_山东迈尔医疗科技有限公司_202410560871.2

诱导细胞融合的痘苗病毒及其应用_国立大学法人鸟取大学_202080035018.9

一种细胞电融合专用仪_上海偌妥生物科技有限公司_202420347250.1

多转子垂直轴式风渔融合装置_南方海洋科学与工程广东省实验室(湛江)_202323443442.7

信息相关技术

信息处理设备、信息处理方法和程序_佳能株式会社_202380028716.X

信息监听、信息发送方法及装置、存储介质_北京小米移动软件有限公司_202280002696.4

物体信息翻译、以及衍生信息获取方法和装置_北京三星通信技术研究有限公司_202110693514.X

信息处理装置、信息处理方法和程序_索尼集团公司_202380028128.6

信息发布方法及系统_广州掇月信息科技有限公司_202410542619.9

信息推送方法及设备_荣耀终端有限公司_202410381498.4

基于信息粒空间的信息组织方法、装置和设备_太极计算机股份有限公司_202011599193.9

基于多平台耦合信息传播动力学模型的信息传播分析方法_中国传媒大学_202410855596.7

信息确定方法、信息指示方法、终端设备和网络设备_OPPO广东移动通信有限公司_202210551945.7

信息处理程序、信息处理方法和游戏装置_CY游戏公司_202380027269.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多模态信息融合的视频检索方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务