河海大学胡锦祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河海大学申请的专利一种基于描述文本的视频问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114387537B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111439356.1,技术领域涉及:G06V20/40;该发明授权一种基于描述文本的视频问答方法是由胡锦祥;孟朝晖设计研发完成,并于2021-11-30向国家知识产权局提交的专利申请。
本一种基于描述文本的视频问答方法在说明书摘要公布了:本发明公开了一种基于描述文本的视频问答方法,属于自然语言处理和计算机视觉领域。本发明将视频的视觉信息通过文本来进行描述,在特征提取时考虑了常识特征的获取,在生成视频描述时对问题单词进行了短语级划分并基于短语使用了多重注意力,此外,还利用了知识库对视频描述内容做进一步的扩充,使得生成的视频描述包含视频的绝大部分视觉信息,之后,将视频描述和问题进行语义上的交互和分析,得到新的融合特征,最后将该特征输入到分类器中进行分类得到预测的答案,同时利用了知识库对答案的语义进行判断。本发明避免了跨模态信息融合的分析的困难,并使用了知识库对描述信息进行补充,从而提升了视频问答的准确率。
本发明授权一种基于描述文本的视频问答方法在权利要求书中公布了:1.一种基于描述文本的视频问答方法,其特征在于:所述方法包括如下步骤: 步骤1,根据所有问题和答案生成相应的先验知识库G; 步骤2,通过卷积神经网络提取视频的帧特征和运动特征,并表示为二组固定维度的特征实值向量Vf、Vm; 步骤3,通过常识特征提取网络提取视频帧的常识特征实值向量Vc; 步骤4,将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算,得到视频最终的特征向量表示ΦV; 步骤5,将视频特征表示ΦV以及问题文本通过描述网络生成视频描述文本Dw; 步骤5-1,根据问题单词文本,将输入的问题以单词序列的形式进行处理; 步骤5-2,利用预训练的BERT模型将问题单词序列转化为固定维度的词向量集合Q={q1,q2,……,qn},其中qn表示第n个单词对应的词向量表示; 步骤5-3,在第一个时间步t,生成开始标识SOS并初始化LSTM网络; 步骤5-4,根据单词的关联性进行计算,得到短语表示矩阵Pt=[p1,t……pj,t],其中pj,t表示第j个到第t个单词构成的短语表示; 步骤5-5,根据短语表示矩阵Pt,计算相关的视频特征权重,得到最终的视频语义特征表示ΦattenVt; 步骤5-6,将视频语义特征ΦattenVt输入至LSTM网络中,生成该时间步的视频描述单词w; 步骤5-7,循环步骤5-4至步骤5-6生成视频描述单词,直到生成结束标识EOS为止完成视频描述的生成,最终得到视频相应的描述文本Dw={w1,w2,……,wn},其中n表示单词的个数; 步骤6,通过对视频描述文本Dw进行关键词提取,在先验知识库G中查询相应的知识,根据查询结果生成补充描述Gw,并将视频描述文本Dw和补充描述Gw两者合并得到最终的描述文本Vd; 步骤7,对视频描述文本Vd和问题文本进行特征提取,利用问答处理网络对两者进行处理,将处理结果输入到分类器中得到预测的答案,结合先验知识库G判断预测的准确性,完成基于描述文本的视频问答。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:211100 江苏省南京市江宁区佛城西路8号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。