中山大学周凡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种基于深度学习的视频时刻检索方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117171391B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310930159.2,技术领域涉及:G06F16/78;该发明授权一种基于深度学习的视频时刻检索方法与系统是由周凡;王若梅;陈小燕;冯佳伟设计研发完成,并于2023-07-26向国家知识产权局提交的专利申请。
本一种基于深度学习的视频时刻检索方法与系统在说明书摘要公布了:本发明公开了一种基于深度学习的视频时刻检索方法。包括:输入视频数据集,并使用训练好的特征提取器提取特征序列;使用单模态特征编码器,对特征序列进行单模态编码;利用统计驱动的异质图推理方法对特征序列进行融合推理;利用查询生成器,生成时刻对齐的查询特征;利用查询解码器,生成用于视频时刻检索的特征序列;使用预测头进行最终结果预测,输出视频时刻检索的结果。本发明还公开了一种基于深度学习的视频时刻检索系统。本发明较其他发明,能够在低成本的硬件条件下完成高效的视频时刻检索和视频信息定位,方便使用者找到需要的视频片段,提高视频的利用价值和用户体验,具有很大的实际应用价值。
本发明授权一种基于深度学习的视频时刻检索方法与系统在权利要求书中公布了:1.一种基于深度学习的视频时刻检索方法,其特征在于,所述方法包括: 输入视频数据集,并使用训练好的特征提取器提取视频中的视频特征及音频特征; 使用Transformer单模态特征编码器,分别对所述视频中的视频特征及音频特征进行单模态编码,得到编码后的视频序列及音频序列; 输入所述编码后的视频序列及音频序列,构建异质图结构,然后利用统计驱动的异质图推理方法进行视频与音频数据的融合,输出推理融合的跨模态特征序列; 将查询文本与所述推理融合的跨模态特征序列一起输入到查询生成器中,输出时刻对齐的查询特征; 将所述时刻对齐的查询特征与推理融合的跨模态特征序列一起输入到查询解码器中进行解码,输出用于视频时刻检索的特征序列; 使用预测头对所述用于视频时刻检索的特征序列进行最终处理,输出视频时刻检索的结果; 具体地,所述输入所述编码后的视频序列及音频序列,构建异质图结构,然后利用统计驱动的异质图推理方法进行视频与音频数据的融合,输出推理融合的跨模态特征序列,具体为: 将编码后的视频序列及音频序列进行拼接,经过两个线性层处理后得到生成节点序列,再通过哈达码积得到异质图邻接矩阵: 其中,G代表异质图邻接矩阵,H代表生成节点序列; 利用统计驱动的跨模态交互方法生成融合的特征序列,利用三阶泰勒构建了一个显著性增强函数,并利用该增强函数来量化出特征到均值的差异,从而衡量特征的显著性,随后利用一个自适应机制来调控所述编码后的视频序列及音频序列间的信息交互权重,得到初始的跨模态特征序列; 将融合的跨模态特征序列作为异质节点的通信桥梁,利用所述初始的跨模态特征序列作为异质图邻接矩阵的异质结点的通信桥梁,并利用图注意力机制增强序列之间的局部关联,得到局部增强的跨模态特征序列; 利用门控机制,对所述初始的跨模态特征序列和所述局部增强的跨模态特征序列做一个自适应嵌入,得到推理融合的跨模态特征序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510006 广东省广州市海珠区新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励