首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态信息融合的视频问答方法、系统及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明公开了一种基于多模态信息融合的视频问答方法、系统及介质,属于计算机视觉技术领域,用于解决视频问答技术依赖于单一模态信息,无法充分利用视频中蕴含的多模态信息,视频检索的效率和准确性不足的技术问题。包括:视频文件基础信息提取得到视频摘要及文本字幕;对文本字幕语句切分得到字幕片段,获取对应的视频片段及音频片段;对每个音频片段进行聚类得到若干个声纹类型簇;获取每个声纹类型簇对应的视频镜头集以及字幕集,获取每类声纹对应的人物标签;根据视频片段以及字幕片段,获取关键帧向量以及字幕片段向量;将全部信息存入向量数据库;基于视频摘要对用户输入的问题进行意图分析,并调用向量数据库进行视频检索及问题回答。

主权项:1.一种基于多模态信息融合的视频问答方法,其特征在于,所述方法包括:对输入视频文件进行基础信息提取,得到视频摘要以及文本字幕;对所述文本字幕进行语句切分,得到字幕片段,并根据所述字幕片段,获取对应的视频片段及音频片段;将每个音频片段映射为声纹向量并进行聚类,得到若干个声纹类型簇;获取每个声纹类型簇对应的视频镜头集以及字幕集,并输入多模态模型中,得到每类声纹对应的人物标签;根据所述视频片段以及所述字幕片段,获取关键帧向量以及字幕片段向量;以片段为单位,将所述关键帧向量、字幕片段向量、人物标签、视频片段、字幕片段、音频片段及对应的时间戳存入向量数据库;基于所述视频摘要对用户输入的问题进行意图分析,根据分析结果调用所述向量数据库进行视频检索及问题回答。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种基于多模态信息融合的视频问答方法、系统及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。