首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国航发哈尔滨东安发动机有限公司

摘要:本发明提供一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法,基于知识蒸馏的视频问答模型为多模态知识蒸馏架构。知识蒸馏的机制目前来主要应用于模型的压缩方面。该机制首先训练一个超大型的教师模型,其通过大量的参数学习来达到更好的效果。之后通过构建一个轻量级的学生模型,其不仅学习训练集真实标签的知识,同时还学习大型的教师模型训练后所蒸馏出来的知识,以更小的参数体量来逼近大型的教师模型的预测效果,达到模型压缩的目的。

主权项:1.一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法,其特征在于,包括以下步骤:在训练阶段搭建神经网络模型,所述神经网络模型结构包括视觉编码模块、文本编码模块、视觉-文本交互模块、视觉特征融合模块和答案生成模块;所述视觉编码模块对输入的视频进行特征向量表示,提取出视频中的外观特征和动作特征;使用ResNet模型实现所述的特征向量表示和提取;对于外观特征:将每一帧图像表示为2048维的特征向量,使用BiLSTM神经网络结构对该特征向量进行处理,得到视频每个片段的语义特征表示,进而得到外观特征表示,Va∈Rc×f×d,其中c表示每个视频的片段数,f表示每个片段的帧数,d表示模型维度;对于动作特征:将每一个片段用2048维特征向量进行表示,接着使用一层线性层神经网络结构对该2048维特征向量进行处理,得到动作特征表示,Vm∈Rc×d,其中c表示每个视频的片段数,d表示模型维度大小;所述文本编码模块使用GloVe词向量对输入的文本问题中的每一个单词进行特征向量表示,其中将每一个单词表示为300维特征向量,表示为Qw∈Rl×300,其中l表示问题的最大长度,300表示GloVe词向量的维度,使用两个BiLSTM神经网络结构分别提取文本问题的嵌入特征和语义特征,BiLSTM输出的每个嵌入特征表示,Qe∈Rl×d,每个语义特征表示,qe∈Rl,其中l表示所述文本问题的最大长度,d表示模型维度大小;所述视觉-文本交互模块采用神经网络领域的注意力机制对外观特征表示和动作特征表示分别进行优化,优化公式为:Sa=SigmoidVaQattWa,Sm=SigmoidVmQattWm,得到外观特征表示的得分Sa和动作特征表示的得分Sm;采用图卷积神经网络结构GCN对外观特征表示的得分Sa和动作特征表示的得分Sm进行优化,优化公式为: 其中,Gi-1表示第i层图卷积的输入特征,Xi表示第i层图卷积的输出特征,上上标a对应外观特征,上标m对应动作特征,上标am表示外观中融合动作信息的关联特征,上标ma表示动作中融合外观信息的关联特征,得到外观独有特征Xa,外观关联特征Xam,动作独有特征Xm,动作关联特征Xma,GCNi表示第i层图卷积操作,i和g均为正整数,1<i<g;采用神经网络领域的注意力机制对嵌入特征表示和语义特征表示分别进行优化,优化公式为:α=SoftmaxL2NormQeW1W2Qatt=αTQwα=SoftmaxL2NormqeW1W2qatt=αTQw其中,W1和W2为学习参数,W1∈Rd×d,W2∈Rd×1,L2代表归一化范数,得到的注意力特征Qatt∈R300和注意力特征qatt∈R300;视觉特征融合模块将外观独有特征Xa,外观关联特征Xam,动作独有特征Xm和动作关联特征Xma进行融合,得到视频问题匹配结果,通过三个神经网络模块实施融合,三个神经网络模块为独有-关联融合模块、外观-动作融合模块和片段融合模块;独有-关联特征融合模块将外观独有特征Xa和外观关联Xam拼接后为[Xa,Xam],动作独有特征Xm和动作关联Xma拼接后为[Xm,Xma],得到融合的外观特征Fa和动作特征Fm,公式如下: Fa=αaXa+αamXam其中,W1∈Rd×d和W2∈Rd×1均为学习参数,得到的外观特征Fa∈Rc×d,同理,将动作的独有特征和联合特征进行融合,得到融合的动作特征Fm,公式为: Fm=αmXm+αmaXma其中,W3∈Rd×d和W4∈Rd×1均为可学习参数,得到的最终的动作特征Fm∈Rc×d;其公式为:Va=Va+FaVm=Vm+Fm外观-动作融合模块将关系信息视觉特征Va和Vm进行融合,采取多模态因子双线性池化方法,公式为: [V1,V2,…,Vf]=V 其中,Wa∈Rd×d、Wm∈Rd×d和均为学习参数,表示矩阵对应位相乘的运算操作,且i小于等于f,df大小为d和f的比值;片段融合模块采用图读出操作方法,通过自注意力机制得到整个视频的融合特征表示,得到每个视频的融合片段特征Vall,公式如下:β=SoftmaxELUVcW1W2Vall=βTVc其中,W1∈Rd×d和W2∈Rd×1均为学习参数;答案生成模块通过融合视觉特征和问题语义特征,解码生成答案特征p,具体公式如下:y=[Vall,qW1]p=ELUyW2W3其中,W1∈Rd×d、W2∈R2d×d和W3∈Rd×n均为学习参数,n为答案分类数目。

全文数据:

权利要求:

百度查询: 中国航发哈尔滨东安发动机有限公司 一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。