南京信息工程大学周媛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京信息工程大学申请的专利一种基于大语言模型的动态迭代式长视频理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119863745B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510355760.2,技术领域涉及:G06V20/40;该发明授权一种基于大语言模型的动态迭代式长视频理解方法是由周媛;华立涛设计研发完成,并于2025-03-25向国家知识产权局提交的专利申请。
本一种基于大语言模型的动态迭代式长视频理解方法在说明书摘要公布了:本发明提供了一种基于大语言模型的动态迭代式长视频理解方法,步骤1,对视频理解任务进行数学建模与分析;步骤2,对用户输入的视频进行预处理,通过问答Agent进行初步推理;步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知;步骤4,采用问答准确率、平均检索帧数作为评价指标进行定量分析,验证方法的有效性;采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程,实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、视频内容推荐等领域,有利于推动长视频快速理解与精准推理的技术发展。
本发明授权一种基于大语言模型的动态迭代式长视频理解方法在权利要求书中公布了:1.一种基于大语言模型的动态迭代式长视频理解方法,其特征在于,包括以下步骤: 步骤1,基于自监督的动态迭代思维链,对视频理解任务进行数学建模与分析; 步骤2,对用户输入的视频进行预处理,对视频进行帧采样,为每个视频帧生成文本描述并提取视频帧的视觉特征;通过问答Agent进行初步推理,结合输入的文本和视频帧生成初步答案;采用认知自适应度评估机制对答案进行评估,如果认知自适应度满足要求则输出答案,否则进入步骤3; 步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知,评判Agent通过检测答案一致性与准确性判断,协助确认答案是否存在歧义或需要进一步补充细节;问答Agent将根据反馈结果进行关键帧检索和信息补充,迭代更新已知信息后返回步骤2,进行下一轮推理,直到认知自适应度达到预设标准; 步骤4,进行结果评估:采用问答准确率、平均检索帧数作为评价指标在开源数据集上进行定量分析,验证方法的有效性;其次,采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期; 步骤1中,所述对视频理解任务进行数学建模与分析,包括:将视频理解过程建模为一个马尔可夫过程,其中每个时刻的状态对应推理过程中的一个阶段,t时刻的状态St包括视频帧的视觉特征Vt和文本描述Tt,表示为: St={Vt,Tt}, 每轮推理,会根据当前状态St生成下一时刻答案At+1,再通过已有答案继续寻找关键信息,设PAt+1|St表示在状态St的条件下,生成下一时刻答案At+1的概率,St+1表示t+1时刻的状态,则下一时刻状态转移过程表示为: PAt+1|St=PAt+1|Vt,Tt, St+1=πSt,At+1, 其中π表示状态转移策略; 用D表示评判策略,用Ft+1表示对t+1时刻进行自我评判后的反馈结果,A0:t表示0时刻到t时刻所有历史答案,自监督的纠正与学习的过程表示为: Ft+1=DAt+1,A0:t,St, 状态转移过程进一步表示成: St+1=πSt,At+1,DAt+1,A0:t-1,St, 整个视频理解过程被拆解成问答、自我评判、反馈与纠正,不断迭代更新状态,最终目的是在动态理解视频的过程中能最大化预计期望C,整个思维链的最终优化目标为: 表示找到使预计期望C最大化的变量St和At+1; 步骤2包括: 步骤2-1,进行视频帧采样:将用户输入的视频均匀采样,转化为图像序列; 步骤2-2,生成文本描述:使用引导语言图像预训练模型BLIP对每一帧图像生成文本描述,文本描述的内容包含场景、物体和动作; 步骤2-3,提取图像特征并存储:通过引导语言图像预训练模型BLIP的视觉编码器从每帧图像中提取视觉特征;所述视觉特征以.npy格式进行保存; 步骤2-4,执行Agent推理与认知自适应度评估; 步骤2-4包括:在步骤2-1得到的图像序列中按均匀分布选择初始帧,初始时刻的状态S0表示为S0={V0,T0},其中V0,T0分别表示初始帧的视觉特征和文本描述; 设计问答Agent作为推理和生成答案的主体,所述问答Agent包含语言理解模块和答案生成模块; 所述语言理解模块采用GPT-4o为问答Agent提供先验知识; 所述答案生成模块用于计算答案与已知信息的匹配程度,并生成答案; 将用户的问题和对应的文本描述拼接为提示词,输入问答Agent,问答Agent根据提示词生成初步答案的选项,并输出选择每个选项的概率,用xi表示第i个选项,Pxi|Vt,Tt表示在已知Vt,Tt的条件下选择第i个选项的概率,计算公式为: 其中i∈{0,1,2,3,……,n-1},n表示选项的总数,且Pxi|Vt,Tt∈[0,1],Sim表示余弦相似度函数,exp表示自然指数函数; 用LLM表示问答Agent,问答Agent通过选项概率分布生成答案的过程为: At+1=LLMPxi|Vt,Tt, 设计认知自适应度,将认知自适应度作为步骤1中提出的预计期望C,所述认知自适应度评估包括相对认知度Crel和绝对认知度Cabs; 计算相对认知度Crel,用于反映选项间的区分度与差异性: 计算绝对认知度Cabs,用于衡量信息的确定性与充分性: 计算C: C=α·Crel+1-α·Cabs, 其中,记Pxi|Vt,Tt中概率最大的为Pxbest,概率次大的为Pxsecondbest;α是一个权重系数; 如果认知自适应度大于等于预设阈值或超过最大迭代次数,则直接输出答案;否则进入步骤3; 步骤3包括: 步骤3-1,设计评判Agent进行自监督反馈; 步骤3-2,进行动态迭代优化; 步骤3包括: 步骤3-1包括:所述评判Agent包含答案检查模块和搜索区间反馈模块; 所述答案检查模块采用GPT-4-preview提供先验知识,对步骤2-4生成的答案At+1判断答案的一致性与正确性,首先,对于一致性,检查上一时刻答案At与当前答案At+1是否一致;其次,对于正确性,检查当前已知信息St和目标问题是否能推理出答案At+1; 所述搜索区间反馈模块用于预测已知帧中的关键帧,并记为已知关键帧,给出反馈视频搜索区间,同时提供关于期望搜索及补充信息的文本描述:根据答案检查模块判断的结果给出反馈,如果一致且正确,则只需要在当前已知关键帧的前、后均取帧数Y1进行关键帧搜索,帧数Y1计算公式为: Y1=Y2Y3-1, 其中,Y2表示视频总帧数,Y3表示已知帧的帧数; 当已知关键帧为第1帧时,仅向后搜索;当已知关键帧为最后一帧时,仅向前搜索; 步骤3包括: 步骤3-2包括:根据步骤3-1中评判Agent给出的反馈视频搜索区间和文本描述,进行关键帧检索与信息补充,动态地调整状态St,对应步骤1中建模的状态转移过程St+1=πSt,At+1,DAt+1,A0:t-1,St,至此,动态迭代优化的公式改写为: {Vt+1,Tt+1}=π{Vt,Tt},LLMPxi|Vt,Tt,DLLMPxi|Vt,Tt,A0:t-1,{Vt,Tt}, 策略π的实施过程包括:基于反馈视频搜索区间和文本描述,从步骤2-3中得到的.npy格式的文件中检索反馈视频搜索区间内所有帧的视觉特征,选取反馈视频搜索区间内视觉特征与文本描述特征相似度最高的帧作为补充,设定评判Agent给出了m个反馈视频搜索区间{I1,I2,…,Im},公式为: 其中表示第m个反馈视频搜索区间Im中检索到的关键帧,vj表示第m个反馈视频搜索区间Im中第j个图像的视觉特征,vtext是文本描述特征; 把检索出的补充帧的视觉特征融入现有信息,从而获得更新后的信息,同时,对补充帧对应的描述也进行更新,用表示补充的关键帧对应的文本描述,其中表示第m个关键帧对应的文本描述,具体更新公式为: 其中concat表示连接操作; 完成更新后,返回步骤2-4进入下一轮推理和迭代,重新生成答案并评估认知自适应度直至满足输出条件; 步骤4包括: 采用EgoSchema_subset数据集,评价指标包括平均检索帧数和问答准确率Acc。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:211806 江苏省南京市浦口区双峰路69号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。