一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法

导航：龙图腾网> 最新专利技术> 一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国航发哈尔滨东安发动机有限公司

摘要：本发明提供一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法，基于知识蒸馏的视频问答模型为多模态知识蒸馏架构。知识蒸馏的机制目前来主要应用于模型的压缩方面。该机制首先训练一个超大型的教师模型，其通过大量的参数学习来达到更好的效果。之后通过构建一个轻量级的学生模型，其不仅学习训练集真实标签的知识，同时还学习大型的教师模型训练后所蒸馏出来的知识，以更小的参数体量来逼近大型的教师模型的预测效果，达到模型压缩的目的。

主权项：1.一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法，其特征在于，包括以下步骤：在训练阶段搭建神经网络模型，所述神经网络模型结构包括视觉编码模块、文本编码模块、视觉-文本交互模块、视觉特征融合模块和答案生成模块；所述视觉编码模块对输入的视频进行特征向量表示，提取出视频中的外观特征和动作特征；使用ResNet模型实现所述的特征向量表示和提取；对于外观特征：将每一帧图像表示为2048维的特征向量，使用BiLSTM神经网络结构对该特征向量进行处理，得到视频每个片段的语义特征表示，进而得到外观特征表示，Va∈Rc×f×d，其中c表示每个视频的片段数，f表示每个片段的帧数，d表示模型维度；对于动作特征：将每一个片段用2048维特征向量进行表示，接着使用一层线性层神经网络结构对该2048维特征向量进行处理，得到动作特征表示，Vm∈Rc×d，其中c表示每个视频的片段数，d表示模型维度大小；所述文本编码模块使用GloVe词向量对输入的文本问题中的每一个单词进行特征向量表示，其中将每一个单词表示为300维特征向量，表示为Qw∈Rl×300，其中l表示问题的最大长度，300表示GloVe词向量的维度，使用两个BiLSTM神经网络结构分别提取文本问题的嵌入特征和语义特征，BiLSTM输出的每个嵌入特征表示，Qe∈Rl×d，每个语义特征表示，qe∈Rl，其中l表示所述文本问题的最大长度，d表示模型维度大小；所述视觉-文本交互模块采用神经网络领域的注意力机制对外观特征表示和动作特征表示分别进行优化，优化公式为：Sa＝SigmoidVaQattWa,Sm＝SigmoidVmQattWm,得到外观特征表示的得分Sa和动作特征表示的得分Sm；采用图卷积神经网络结构GCN对外观特征表示的得分Sa和动作特征表示的得分Sm进行优化，优化公式为：其中，Gi-1表示第i层图卷积的输入特征，Xi表示第i层图卷积的输出特征，上上标a对应外观特征，上标m对应动作特征，上标am表示外观中融合动作信息的关联特征，上标ma表示动作中融合外观信息的关联特征，得到外观独有特征Xa，外观关联特征Xam，动作独有特征Xm，动作关联特征Xma，GCNi表示第i层图卷积操作，i和g均为正整数，1＜i＜g；采用神经网络领域的注意力机制对嵌入特征表示和语义特征表示分别进行优化，优化公式为：α＝SoftmaxL2NormQeW1W2Qatt＝αTQwα＝SoftmaxL2NormqeW1W2qatt＝αTQw其中，W1和W2为学习参数，W1∈Rd×d，W2∈Rd×1，L2代表归一化范数，得到的注意力特征Qatt∈R300和注意力特征qatt∈R300；视觉特征融合模块将外观独有特征Xa，外观关联特征Xam，动作独有特征Xm和动作关联特征Xma进行融合，得到视频问题匹配结果，通过三个神经网络模块实施融合，三个神经网络模块为独有-关联融合模块、外观-动作融合模块和片段融合模块；独有-关联特征融合模块将外观独有特征Xa和外观关联Xam拼接后为[Xa,Xam]，动作独有特征Xm和动作关联Xma拼接后为[Xm,Xma]，得到融合的外观特征Fa和动作特征Fm，公式如下： Fa＝αaXa+αamXam其中，W1∈Rd×d和W2∈Rd×1均为学习参数，得到的外观特征Fa∈Rc×d，同理，将动作的独有特征和联合特征进行融合，得到融合的动作特征Fm，公式为： Fm＝αmXm+αmaXma其中，W3∈Rd×d和W4∈Rd×1均为可学习参数，得到的最终的动作特征Fm∈Rc×d；其公式为：Va＝Va+FaVm＝Vm+Fm外观-动作融合模块将关系信息视觉特征Va和Vm进行融合，采取多模态因子双线性池化方法，公式为： [V1,V2,…,Vf]＝V 其中，Wa∈Rd×d、Wm∈Rd×d和均为学习参数，表示矩阵对应位相乘的运算操作，且i小于等于f，df大小为d和f的比值；片段融合模块采用图读出操作方法，通过自注意力机制得到整个视频的融合特征表示，得到每个视频的融合片段特征Vall，公式如下：β＝SoftmaxELUVcW1W2Vall＝βTVc其中，W1∈Rd×d和W2∈Rd×1均为学习参数；答案生成模块通过融合视觉特征和问题语义特征，解码生成答案特征p，具体公式如下：y＝[Vall,qW1]p＝ELUyW2W3其中，W1∈Rd×d、W2∈R2d×d和W3∈Rd×n均为学习参数，n为答案分类数目。

全文数据：

权利要求：

百度查询：中国航发哈尔滨东安发动机有限公司一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：可调节式组合货架

下一篇：木箱托板固定装置

相关技术

可调节式组合货架

木箱托板固定装置

一种显示器件制造用翻转装置

一种用于新型建筑材料的检测装置

一种可调式道路安全反光装置

一种电子设备配件

一种真空绝热板的生产用输送装置

一种新型电动爬楼机用履带底盘

一种光伏支架抑振装置

一种放气保险装置

一种医学影像CT机检查辅助装置

一种工业电动缝纫机的保护机构

态相关技术

一种混合压缩态光场生成装置_西安工业大学_202420378230.0

一种三态车锁系统_公安海警学院_201810332473.X

一种具有交换流态的防堵塞潜流人工湿地_重庆市三峡生态环境技术创新中心有限公司_202420012028.6

一种双光子双态发光卟啉荧光染料及其制备方法_湖南科技大学_202410662960.8

量子体系下的热化态制备方法、设备及存储介质_腾讯科技(深圳)有限公司_202111479010.4

一种缺陷态氧化镁催化剂及其制备方法与应用_南京大学_202410663752.X

基于连续谱束缚态超表面的光谱成像方法_北京理工大学_202410685968.6

基于锰铁价态调控的改性活性焦及其制备方法_华北水利水电大学_202310676780.0

一种再生红砖粗骨料基大流态混凝土的制备工艺_菏泽城建绿源环保科技有限公司_202311317808.8

一种铸态下含钼的耐磨高铬铸铁材料及其制备方法_扬州禄昌恒泰航空新材料有限公司_202410824514.2

多模相关技术

一种预应力桩模具一模多桩的分隔装置及多桩制作方法_建华建材(中国)有限公司_202410907520.4

一种基于深度学习的多模光纤散斑图像重构方法_上海理工大学_202410845318.3

一种非刚性多模医学图像的配准方法及系统_华中科技大学_202111192744.4

一种多工位自动换模系统及其控制方法_裕钦精密拉深技术(苏州)有限公司_202411128222.1

天平式硫化机中心机构及多模硫化机_青岛海琅智能装备有限公司_201910924579.3

混凝土侧模的连接组件及混凝土侧模_中国建筑第二工程局有限公司_202420010504.0

薄壁筒件拉延模_昆山创恒精密模具有限公司_202323413844.2

共模滤波器_TDK株式会社_202110665797.7

筒仓顶板吊模装置_河北省第四建筑工程有限公司_202323412241.0

一种多功能多件飞机旋翼桨毂冲切压校型锻压复合模_中信戴卡股份有限公司_202420574150.2

蒸馏相关技术

一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法_中国航发哈尔滨东安发动机有限公司_202410728659.2

一种用于糠醛生产的蒸馏塔_衡水酷祥生物科技有限公司_202420180142.X

一种溴素蒸馏提取装置_广饶海丰盐化有限公司_202420576190.0

模型蒸馏方法，装置、设备及存储介质_北京百度网讯科技有限公司_202410804338.6

一种具有搅拌功能的蒸馏设备_武威市食品检验检测中心_202420179357.X

一种基于蒸馏法的海水淡化设备_山东国辰实业集团有限公司_202411102758.6

一种氰乙酸叔丁酯蒸馏装置_枣阳市宏盛化工有限公司_202420196820.1

一种新型药品检验用蒸馏装置_菏泽市食品药品检验检测研究院_202323317915.9

一种实验室小型蒸馏酒设备_新疆前海酒业有限公司_202323020975.4

一种用于天然产物提取用蒸馏设备_江西宏润香料有限公司_202420139362.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于知识蒸馏的视频问答模型及多模态知识蒸馏方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务