Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态信息融合的视频检索方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明提出一种基于多模态信息融合的视频检索方法及系统,属于人工智能设备技术领域,包括:获取视频并处理得到视频数据,视频数据包括视频摘要、音频、字幕、封面和关键帧;将视频数据进行向量化处理得到视频数据向量,并映射到同一高维向量数据库进行存库;获取用户查询,对用户查询进行分析获得用户意图,根据用户意图匹配最优的检索方案,并从向量数据库中检索得到目标视频;实现了视频关键信息的准确表征,提高了视频关键信息提取能力以及视频检索的精度。

主权项:1.一种基于多模态信息融合的视频检索方法,其特征在于,包括:获取视频并处理得到视频数据,视频数据包括视频摘要、音频、字幕、封面和关键帧;获取视频并处理得到视频数据步骤包括:视频摘要生成、音视频通道拆分、音频处理、封面处理和关键帧提取;视频摘要生成:通过多模态大模型工具结合提示工程对视频信息进行摘要总结,得到视频摘要,多模态大模型工具结合提示工程采用Video-LLaMa模型;音视频通道拆分:通过内置工具将各种格式的视频文件进行通道拆分,得到视频信息和音频信息,内置工具采用ffmpeg工具;音频处理:通过ASR算法对音频进行转文本操作得到文本字幕,使用paraformer语音翻译模型得到一段文本,及每个字符对应的起始时间戳和结束时间戳,通过langchain工具对文本按照标点符号进行分段获得若干文本段,提取每个文本段第一个字符的起始时间戳和最后一个字符的结束时间戳作为这段文本的起始、结束时间戳,最后整合所有文本段及其对应时间区间生成字幕文本;封面处理:提取视频封面图片通过OCR识别模型得到封面文本以及封面图像;关键帧提取:通过将视频输入关键帧提取模型输出视频关键帧列表,视频输入关键帧提取模型采用TransNetV2模型,通过TransNetV2模型对视频信息进行推理识别,输出视频关键帧列表;将视频数据进行向量化处理得到视频数据向量,并映射到同一高维向量数据库进行存库;所述将视频数据进行向量化处理得到视频数据向量,并映射到同一高维向量数据库进行存库步骤包括:通过多模态embedding模型ImageBind对视频摘要、音频信息、文本字幕、封面文本、封面图像、视频关键帧列表进行向量化处理得到摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、视频关键帧向量;将得到的摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、视频关键帧向量及对应元数据视频摘要、文本字幕、封面文本打包存入向量数据库;获取用户查询,对用户查询进行分析获得用户意图,根据用户意图匹配最优的检索方案,并从向量数据库中检索得到目标视频;所述检索方案通过预先设置视频数据向量中多种向量的权重,进行加权融合获得;所述根据用户意图匹配最优的检索方案步骤包括:根据用户意图设置不同的检索方案,将用户问题送入embedding模型进行向量化得到查询向量,分别计算其与摘要向量、音频向量、字幕向量、封面文本向量、封面图像向量、关键帧向量的相似性得分通过weightedranker策略计算最终得分: 其中,为向量对应的相似性得分,对应为向量对应的权重;根据最终得分S对检索到的视频进行排序,得到相关视频;采用BM25算法计算封面文本与视频摘要和字幕文本的相似度Score: 是文档D与查询Q的相关性得分,是查询Q中的第i个词项,是词项的逆文档频率,是词项在文档D中的出现频率,是文档D的长度,是语料库中所有文档的平均长度,和是调节参数,取和。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种基于多模态信息融合的视频检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。