融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

导航：龙图腾网> 最新专利技术> 融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京工业大学

摘要：本发明公开了融合动态异构超图神经网络与Transformer的视觉文本问答学习方法，属于深度学习及在多模态数据处理中的应用技术领域；本方法将图像的场景图信息和文本问题通过图结构化处理将数据预处理；基于随机游走生成超图的方式，将原始数据预处理成超图对；根据超边上的节点特征赋予初始超边权值，通过超图神经网络得到包含复杂结构关系的各模态特征。基于Transformer的自注意力和交叉注意力机制，关注不同模态的各自特性及模态间的重要交互信息。通过对两种注意力的组合，找到答案区域内的相关结构信息；通过得到的注意力权值，动态更新超图对的超边权重；本发明利用Transformer框架的自注意力和交叉注意力机制，进一步细化对关键信息的识别和处理能力。

主权项：1.融合动态异构超图神经网络与Transformer的视觉文本问答学习方法，其特征在于，包括如下步骤：步骤一：将图像的场景图信息和文本问题通过图结构化处理将数据预处理；a对于图像模态，基于场景图信息构建图像的异构图表示，将场景图中的对象、属性和对象之间的关系定义为异构图的三种节点，边的类型只有一种，表示是否连接，即属性-对象，对象-关系-对象，其中A-B表示节点A通过有向边连接节点B；b对于文本模态，使用已有的依赖树句法分析，将问题句子解析成结构化信息，并根据句子的依赖关系构建图结构表示；步骤二：基于随机游走生成超图的方式，将原始数据预处理成超图对；a将使用预训练好的Glove向量作为词嵌入，用来表示图中的每一个节点；b根据节点的词嵌入表示计算节点与节点之间的相似性，归一化后作为后续图上随机游走时节点转移的初始概率；c通过随机游走的路径不同，分别构建出两个模态的多条超边，并提取所包含的节点及其Glove表示，作为超图的节点和节点特征；至此，异构超图搭建完成；步骤三：根据超边上的节点特征赋予初始超边权值，通过超图神经网络得到包含复杂结构关系的各模态特征；a对于超图卷积层具体的公式定义如下：Xl+1＝σLXlΘl1 其中：为超图与节点v∈N和超边e∈E的关联矩阵；为对角矩阵表示节点度数，第ith对角元素为为表示超边度的对角矩阵，第jth对角元素为为表示超边权重的对角矩阵，第jth对角元素为第jth超边的权重；为超图的节点特征，C为特征维数；为网络模型中每个卷积层可学习的权重矩阵；b网络模型中有两个超图神经网络，分别负责处理图像模态的超图和文本模态的超图；输入均为超图的入射矩阵H、超边权重矩阵B和超图节点特征矩阵X，得到的输出为超图卷积后的节点特征步骤四：基于Transformer的自注意力和交叉注意力机制，关注不同模态的各自特性及模态间的重要交互信息；a自注意力模块；HGNN卷积后的超图节点特征会被拆分成N个节点特征向量，并复制成三份即查询Q、键K和值V，经过多头自注意力模块和前馈神经网络得到与节点特征相同维度的注意力权重输出；自注意力模块描述为将查询Q和一组键值对K、V映射到输出，输出计算为值V的加权和，其中分配给每个值的权重由查询与相应键的相似性计算得到，整体计算公式如下：其中dK是输入K的维度；对于每个注意力头有：headi＝AttentionQWiQ,KWiK,VWiV5其中，Wi为输入信息通过线性变换时的可学习的参数；此时的输出张量中已经得到了各模态的所需要关注的注意力信息；b交叉注意力模块；使用交叉注意力来权衡和挖掘模态之间的交互信息，将与答案相关的两个模态的特定区域相关联；最后分别将两个模态的交叉注意力与对应模态的自注意力相加，得到权衡图像和文本模态间不同特征的重要性且保留各模态独有的重要特征；步骤五：通过对两种注意力的组合，找到答案区域内的相关结构信息；通过超图神经网络得到单模态的特征输出，通过组合注意力层得到模态之间交互的特征权重，将二者组合，携带着单模态中对象之间的高阶结构特征以及单模态特有的信息，并且具有多模态之间的交互信息，能够很好的关注到与回答问题相关的重要信息；使用全局平均池化处理结合后的输出，最后合并起来通过分类层得到答案；步骤六：通过得到的注意力权值，动态更新超图对的超边权重；组合后的注意力权重通过前馈神经网络FFN的线性转换，得到与超边数一致的维度；根据对应超边所包含的节点计算超边的新权重，最后与更新前的超边权重矩阵做点乘，得到更新后的超边权重矩阵，并作为下次训练时的输入。

全文数据：

权利要求：

百度查询：北京工业大学融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于数字密钥的电子公文管理系统及方法

下一篇：一种身份认证方法、系统、电子设备及存储介质

相关技术

一种基于数字密钥的电子公文管理系统及方法

一种身份认证方法、系统、电子设备及存储介质

一种室内立式蔬菜栽培架

基于大语言模型的代码处理方法、装置、设备和介质

设备健康预测方法和计算机可读存储介质

一种通用性电机调速模块

一种木门加工灰尘清理装置

一种平开窗

投屏声音故障的确定方法、装置、电子设备和存储介质

用于处理振动信号的方法、计算设备和存储介质

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

视觉相关技术

全自视觉贴膜机_东莞市德尚精密机械设备有限公司_202420130331.6

显示面板的视觉检测方法_江西蓝图智能制造科技有限公司_202411032101.7

基于机器视觉的印刷设备_扬州东兴印刷包装有限公司_202411178558.9

3D视觉残留风扇_溙奕(江西)电子科技有限公司_202420653086.7

一种视觉传达设计平台_安徽财经大学_202420615243.5

采用视觉解析技术的排量监测方法_大连大开污水处理有限公司_202411159034.5

基于视觉算法的弱苗识别剔除方法及系统_新疆农业科学院农业机械化研究所_202411082392.0

牙科种植导板、视觉导向系统及其配准方法_雅客智慧(北京)科技有限公司_202010643123.2

一种基于视觉分析的工程监测系统_广东精信工程造价咨询有限公司_202410282561.9

一种嵌件外观视觉检测装置_苏州图凌视界智能科技有限公司_202323456297.6

图相关技术

基于拓扑文件生成单线图的成图方法及成图装置_许继(珠海)自动化系统有限公司_202411009610.8

天线收发方向图测试方法_浙江宜通华盛科技有限公司_202411064527.0

对深度图的压缩_皇家飞利浦有限公司_202380031288.6

三旧改造房产成图方法_广东省测绘技术有限公司_202210046258.X

基于喷漆枪的辅助喷图装置_成都市华科机电设备有限公司_202420189125.2

基于时间扩展图的DTN网络路由方法_西安电子科技大学_202410984073.2

计算图算子切分的方法及装置_广州希姆半导体科技有限公司_202310506244.6

用于数据中心监控的数据驱动事物图_阿里巴巴集团控股有限公司_201980099754.8

基于图数据的特征筛选方法和系统_支付宝(杭州)信息技术有限公司_202411144868.9

基于机场细则AIP图的线条合并方法、系统_珠海翔翼航空技术有限公司_202411117085.1

神经相关技术

植入式神经刺激器的电极引线及植入式神经刺激器系统_苏州新云医疗设备有限公司_202410667091.8

神经网络控制变量_斯纳普公司_202380031568.7

一种多头神经介入导管_首都医科大学附属北京天坛医院_202410464117.9

一种神经刺激器_徐州医科大学_202420125284.6

一种基于神经纤维特异性荧光的神经再生研究方法_广东省妇幼保健院(广东省妇产医院、广东省儿童医院)_202411081848.1

一种基于神经形态器件的逻辑门_中电海康集团有限公司_202111650068.0

基于神经内科护理用的下肢按摩设备_郑州人民医院(郑州人民医院医疗管理中心)_202210834877.5

神经丝轻链截短体及其用途_北京理工大学_202411044700.0

一种光纤结构的神经突触器件_哈尔滨工程大学_202111021706.2

一种柔性神经电极及其制备方法_东华大学_202411450090.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务