复旦大学张玥杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利基于关系感知的视频描述生成系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115311598B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210911326.4,技术领域涉及:G06V20/40;该发明授权基于关系感知的视频描述生成系统是由张玥杰;郑逸;陈晖;景和明设计研发完成,并于2022-07-29向国家知识产权局提交的专利申请。
本基于关系感知的视频描述生成系统在说明书摘要公布了:本发明属于跨媒体生成技术领域,具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样,获取帧级别视觉语义特征与目标对象序列特征及相关信息;关系感知视觉特征编码网络对帧级别视觉语义进行融合,对视频中目标对象序列特征根据关系信息进行重构编码;语言解码网络采用注意力机制融合特征信息,生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息,利用图卷积对视频中对象级序列特征进行重构,在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息,使生成更精确,并提高模型对视频视觉信息的理解能力。
本发明授权基于关系感知的视频描述生成系统在权利要求书中公布了:1.一种基于关系感知的视频描述生成系统,其特征在于,采用图卷积网络,包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络;其中,所述视频特征提取网络对视频进行采样,获取采样帧的特征向量序列,对采样帧进行场景图解析,获取显著目标的特征向量序列以及任意目标对之间的关系预测信息,并输入至关系感知视觉特征编码网络中进行特征重构;所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构,融合,并输出整个视频的特征表示,输入至语言解码网络;所述语言解码网络采用注意力机制进一步融合特征信息,采样生成最终的视频描述语句;工作流程为: 一所述视频特征提取网络对视频进行帧采样,利用预训练的深度CNN模型对图像进行特征表示,提取出帧级别的视觉特征向量序列;利用I3D网络获取视频时间维度上的运动特征表示;利用场景图解析模型提取出帧内对象的特征表示以及关系预测信息,得到目标级别的对象特征向量序列; 二所述关系感知视觉特征编码网络分为两个分支,为帧级别的全局特征编码分支以及目标级别的对象特征编码分支;帧级别的全局特征编码分支以帧级别的视觉特征向量序列与I3D网络提取的运动特征表示为输入,得到融合后的帧级别特征序列;目标级别的对象特征编码分支以对象特征向量序列以及预测的关系信息为输入,根据关系信息构建空间关系图结构,根据特征向量相似度构建时序关系图结构,采用图卷积网络进行特征重构,得到关系信息增强后的对象级别特征序列; 三所述语言解码网络以重构后的帧级别特征序列、对象级别特征序列以为输入,通过注意力机制加权融合两种特征,输出描述所述视频的语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励