Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学李德纮获国家专利权

浙江大学李德纮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学申请的专利一种基于大语言模型的视频理解方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118865196B

龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410825619.X,技术领域涉及:G06V20/40;该发明授权一种基于大语言模型的视频理解方法及系统是由李德纮;王高昂;曹世东设计研发完成,并于2024-06-25向国家知识产权局提交的专利申请。

一种基于大语言模型的视频理解方法及系统在说明书摘要公布了:本发明涉及视频处理技术领域,具体说是一种基于大语言模型的视频理解方法及系统,包括获取视频问答示例,形成视频问答数据集,对所述视频问答数据集进行预处理,获得视频问答数据集的向量表示特征,将已有文本‑图像模型改组为视频特征提取模型,利用所述视频特征提取模型处理向量表示特征,获取视频分析结果向量特征,利用大语言模型分析视频分析结果向量特征,得到对应视频问答示例的答案,本发明通过数据预处理、模型训练以及冻结的大语言模型来进行视频理解问答,可以提高回答准确率,并节省训练算力以及数据资源。

本发明授权一种基于大语言模型的视频理解方法及系统在权利要求书中公布了:1.一种基于大模型时空参数复用的高效视频理解方法,其特征在于,所述方法应用于一种基于大模型时空参数复用的高效视频理解系统,所述方法包括: S1:获取视频问答示例,形成视频问答数据集; S2:对所述视频问答数据集进行预处理,获得视频问答数据集的向量表示特征; S3:将已有文本-图像模型改组为视频特征提取模型,利用所述视频特征提取模型处理向量表示特征,获取视频分析结果向量特征;其中,S3包括如下步骤: S31:根据文本-图像大模型的每一个空间自注意力网络,初始化结构和空间自注意力网络完全相同的时序自注意力网络,并将文本-图像大模型中的空间自注意力网络参数复用到视频时序上的自注意力网络参数; S32:时间和空间建模交替堆叠重复若干次,实现文本与视频多模态信息的高效融合,经过参数复用,原有文本-图像大模型的空间自注意力网络-空间交叉注意力网络的基本单元堆叠,变为时序自注意力网络-空间自注意力网络-空间交叉注意力网络的基本单元堆叠若干次; S33:处理数据流时,使用通道变换策略,在进入空间注意力网络时合并视频向量的Batch和时序通道,在进入时序注意力网络时合并视频向量的Batch和空间长度通道,来完成图像向量中的时序交互以及空间交互,得到视频分析结果表示向量特征; S34:对改组后的视频特征提取模型进行训练,训练时,在注意力网络的各个参数中加入一个与原参数矩阵输入输出维度相同的低秩矩阵,在训练阶段中保持原模型参数冻结,只调整各个低秩矩阵; S4:利用大语言模型分析视频分析结果向量特征,得到对应视频问答示例的答案。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省嘉兴市海宁市海州东路718号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。