中国传媒大学杨盈昀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国传媒大学申请的专利一种基于知识增强的视频-文本检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116628262B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310618967.5,技术领域涉及:G06F16/783;该发明授权一种基于知识增强的视频-文本检索方法是由杨盈昀;寇宏微;花妍设计研发完成,并于2023-05-30向国家知识产权局提交的专利申请。
本一种基于知识增强的视频-文本检索方法在说明书摘要公布了:本发明公开了一种基于知识增强的视频‑文本检索方法,通过对视频‑文本深度学习预训练模型即CLIP模型对视频‑文本进行编码,将图文关联知识迁移,以便获取良好的视频‑文本表征。通过引入域外常识性知识图谱Conceptnet对视频‑文本编码进行知识增强,首先经过图卷积神经网络获取知识图谱的图嵌入向量,再使用Cross‑attention模块对文本编码进行知识增强;知识增强后的文本编码通过Xpool操作辅助视频帧的时间特征汇聚,并增强视频全局表征;经过知识增强的视频‑文本表征进行对比学习,提升视频‑文本检索性能;经过多组实验证明,本发明显著提高了视频‑文本检索的召回率。
本发明授权一种基于知识增强的视频-文本检索方法在权利要求书中公布了:1.一种基于知识增强的视频-文本检索方法,其特征在于,包括如下步骤: 步骤1、使用对比视频-文本对的预训练模型即CLIP模型对视频-文本初步编码,获得文本编码向量和视频编码向量;所述CLIP模型由CLIP文本编码器与CLIP图像编码器组成; 步骤2、获取常识性知识图谱Conceptnet的知识图谱图嵌入embedding;具体获取方式为,使用图卷积神经网络对常识性知识图谱Conceptnet进行知识汇聚,得到知识汇聚后的知识图谱图嵌入embedding; 步骤3、基于步骤2的知识图谱图嵌入embedding对步骤1中得到的文本编码向量进行增强;具体增强方式为:首先根据步骤1中文本编码向量的文本分词在Conceptnet知识图谱中通过字符串匹配的方式检索相关节点,再在步骤2中的知识图谱图嵌入embedding中选取所检索出节点的embedding,与步骤1中的文本编码向量进行跨模态注意力交互,得到知识增强后的文本特征向量; 步骤4、对步骤1中得到的视频编码向量进行增强;将步骤3中得到的知识增强后的文本特征向量与视频帧编码向量进行跨模态注意力交互,交互方式为,通过计算与文本特征向量的相似度为不同的视频帧编码向量分配注意力值,与文本特征向量更相关的视频帧获取到更大的注意力值;将注意力值经过Softmax函数转化为归一化权值,所有视频帧编码向量加权求和得到知识增强后的视频特征向量;步骤4中,视频编码向量的知识增强方法,采用域外知识对视频-文本编码进行增强,域外知识包括CLIP模型中的视频-文本关联知识与常识性知识库中的知识; 使用CLIP模型中的视频-文本关联知识对视频编码向量进行知识增强;通过CLIP模型对视频采样帧编码,对视频编码向量进行训练和微调,将CLIP模型中的视频-文本关联知识迁移到视频编码向量中; 使用常识性知识库对视频编码向量做知识增强;采用所述的知识增强的文本特征向量与视频编码向量进行交互,根据与知识增强的文本特征向量的关联性为不同的视频帧编码向量分配不同的注意力权重,再加权求和得到知识增强的视频特征向量,实现对视频编码向量的知识增强; 步骤5、对步骤4获取的知识增强后的视频特征向量与步骤3中获取的知识增强后的文本特征向量进行对比学习,使得属于同一视频-文本对的视频特征向量与文本特征向量在投影空间中有更近的距离,即更大的相似度;CLIP模型的推理阶段中,将视频-文本通过步骤1到步骤4获得的文本特征向量与视频特征向量投影到共同的语义空间,通过计算视频特征向量和文本特征向量之间的余弦距离作为视频-文本相似度,将视频-文本相似度的大小由大到小重排序即实现视频-文本检索。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国传媒大学,其通讯地址为:100024 北京市朝阳区定福庄东街1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。