买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种基于大模型的长视频理解方法、装置、设备及介质,该方法包括:获取待处理视频;对所述待处理视频进行秒级抽帧,得到初步视频帧序列;根据所述初步视频帧序列的长度、第一大语言模型的上下文长度和第一设定长度,对所述初步视频帧序列进行划分,得到至少一个子序列,通过所述第一大语言模型对各个所述子序列进行分批处理,得到每个所述子序列对应的理解结果;对多个所述理解结果进行融合处理,得到所述待处理视频对应的目标理解结果。通过本发明的方法,有效减小了大语言模型的上下文长度对视频理解的限制,大大增加了能够处理的视频的时长。
主权项:1.一种基于大模型的长视频理解方法,其特征在于,包括以下步骤:获取待处理视频;对所述待处理视频进行秒级抽帧,得到初步视频帧序列;根据所述初步视频帧序列的长度、第一大语言模型的上下文长度和第一设定长度,对所述初步视频帧序列进行划分,得到至少一个子序列,所述第一设定长度为预留给用户输入问题的长度,每个所述子序列的长度为所述第一大语言模型一次处理的最大长度;通过所述第一大语言模型对各个所述子序列进行分批处理,得到每个所述子序列对应的理解结果;对多个所述理解结果进行融合处理,得到所述待处理视频对应的目标理解结果;多个所述理解结果为BN个理解结果,所述对多个所述理解结果进行融合处理,得到所述待处理视频对应的目标理解结果,包括:通过第二大语言模型对多个所述理解结果进行融合处理,得到所述待处理视频对应的目标理解结果,每个所述理解结果的长度不大于所述第二大语言模型处理一个子序列时对应的长度;其中,若BN大于1,使用第二大语言模型对BN个理解结果做融合处理的具体实现过程为:给第二大语言模型输入分析总结的提示词,以使所述第二大语言模型根据提示词对所有的输入进行分析总结后输出目标理解结果;其中,设每个理解结果的长度为LenOutA,第二大语言模型的上下文长度为,则应有: 其中,使用预先设置的prompt限制第一大语言模型输出的理解结果的长度。
全文数据:
权利要求:
百度查询: 北京卓视智通科技有限责任公司 一种基于大模型的长视频理解方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。