武汉大学刘星瑶获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉大学申请的专利一种在模糊描述下基于视觉大模型的监控视频检索方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120336582B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510355552.2,技术领域涉及:G06F16/783;该发明授权一种在模糊描述下基于视觉大模型的监控视频检索方法和系统是由刘星瑶;孟庆祥设计研发完成,并于2025-03-25向国家知识产权局提交的专利申请。
本一种在模糊描述下基于视觉大模型的监控视频检索方法和系统在说明书摘要公布了:本发明公开了一种在模糊描述下基于视觉大模型的监控视频检索方法和系统。所述方法包括:步骤1、创建模糊行为描述与特征数据集,训练文本到文本的大模型;步骤2、设置文本编码器,对文本进行编码,生成文本特征向量;步骤3、预处理视频,将提出的特征聚合为一个KAN网络,设置视频编码器,对若干监控视频进行视频编码,形成视频特征向量;步骤4、基于视频‑文本匹配对,使用混合并行的双网络并行模式训练文本视频匹配模型;步骤5、使用训练好的文本解释大模型对用户输入文字进行解析与扩展,并依据新的文本描述找到匹配视频。本发明能根据用户描述的内容查找相应视频,适用范围广,实用性和可行性较好。
本发明授权一种在模糊描述下基于视觉大模型的监控视频检索方法和系统在权利要求书中公布了:1.一种在模糊描述下基于视觉大模型的监控视频检索方法,其特征在于,包括如下步骤: 步骤1,创建模糊行为描述与特征数据集,训练文本到文本的大模型,用于将模糊描述转换为更具体的、结构化的文本信息; 步骤2,先对步骤1中得到的文本信息进行预处理,然后设置基于Transformer的文本编码器,对预处理后的文本进行编码,生成文本特征向量; 步骤3,先进行视频帧采样与特征提取,然后基于KAN网络进行时序和语义集合,从而获得代表整个视频语义的特征向量,并提取关键帧; 步骤3中,KAN网络的处理过程如下: 首先,将从视频中提取的特征经过预处理映射到中间特征空间,表示为,其中和为可学习参数; 时序聚合时,针对视频帧序列固有的时序动态,通过若干层KAN模块对每个时刻的特征进行逐层处理,形成局部时序信息的表达;具体而言,每一层的输出可写为,其中初始输入即为预处理后的特征,l表示层数,表示KAN模块;每一层中可嵌入局部注意力机制或者基于核函数的加权策略,利用B样条函数在局部时域内捕捉相邻帧之间的细粒度变化;处理完成后,将时序分支中各帧的输出经过加权或求平均操作,获得全局时序聚合特征; 在语义聚合过程中,针对图像编码器提取的每帧特征的高层语义信息,经过若干层KAN模块处理得到另一组特征,再由一组独立的KAN模块进行层级处理,其每层输出形式为,表示独立的KAN模块,然后通过B样条激活函数进行非线性变换,最终利用可学习的语义注意力或加权求和机制,将各帧处理结果整合为全局语义聚合特征; 最终,通过将全局时序聚合特征与全局语义聚合特征采用加权求和的方式进行融合,即,其中λ∈[0,1]为调节两部分贡献的超参数,得到时序动态和语义一致性的全局视频特征,并进行归一化处理后得到代表整个视频语义的特征向量; 步骤4,通过混合并行的双网络并行模式训练文本视频匹配模型,所述文本视频匹配模型包括文本分支和视频分支,其中文本分支为步骤2中基于Transformer的文本编码器,视频分支为KAN网络; 步骤5,使用训练好的文本视频匹配模型对用户输入文字进行解析与扩展,并依据新的文本描述找到匹配视频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励