买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征;事件特征编码层提取和筛选事件特征;事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征,事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明使用层级放置的事件特征提取器充分考虑视频帧之间的关联,将视频信息编码为细粒度的层级事件特征,解决了现有模型存在的粗粒度特征提取问题,使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征,大幅减少了视频的特征令牌数量,辅以相似帧融合模块和图像特征压缩器,解决了长视频理解困难问题。
主权项:1.一种基于细粒度层级事件特征的视频语义理解模型,其特征在于,包括视觉编码器、预训练的BERT模型、事件特征编码层、大语言模型,其中,预训练的BERT模型,用于编码文本形式的问题,编码后的问题称为用户查询;视觉编码器,用于将视频帧编码为帧特征;事件特征编码层,用于提取事件特征;包括事件特征提取器和事件特征感知器;事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征,事件特征感知器根据用户输入的问题筛选相关的事件特征,以提高视频特征表示的信息密度。。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于细粒度层级事件特征的视频语义理解模型及生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。