Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合动态异构超图神经网络与Transformer的视觉文本问答学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:本发明公开了融合动态异构超图神经网络与Transformer的视觉文本问答学习方法,属于深度学习及在多模态数据处理中的应用技术领域;本方法将图像的场景图信息和文本问题通过图结构化处理将数据预处理;基于随机游走生成超图的方式,将原始数据预处理成超图对;根据超边上的节点特征赋予初始超边权值,通过超图神经网络得到包含复杂结构关系的各模态特征。基于Transformer的自注意力和交叉注意力机制,关注不同模态的各自特性及模态间的重要交互信息。通过对两种注意力的组合,找到答案区域内的相关结构信息;通过得到的注意力权值,动态更新超图对的超边权重;本发明利用Transformer框架的自注意力和交叉注意力机制,进一步细化对关键信息的识别和处理能力。

主权项:1.融合动态异构超图神经网络与Transformer的视觉文本问答学习方法,其特征在于,包括如下步骤:步骤一:将图像的场景图信息和文本问题通过图结构化处理将数据预处理;a对于图像模态,基于场景图信息构建图像的异构图表示,将场景图中的对象、属性和对象之间的关系定义为异构图的三种节点,边的类型只有一种,表示是否连接,即属性-对象,对象-关系-对象,其中A-B表示节点A通过有向边连接节点B;b对于文本模态,使用已有的依赖树句法分析,将问题句子解析成结构化信息,并根据句子的依赖关系构建图结构表示;步骤二:基于随机游走生成超图的方式,将原始数据预处理成超图对;a将使用预训练好的Glove向量作为词嵌入,用来表示图中的每一个节点;b根据节点的词嵌入表示计算节点与节点之间的相似性,归一化后作为后续图上随机游走时节点转移的初始概率;c通过随机游走的路径不同,分别构建出两个模态的多条超边,并提取所包含的节点及其Glove表示,作为超图的节点和节点特征;至此,异构超图搭建完成;步骤三:根据超边上的节点特征赋予初始超边权值,通过超图神经网络得到包含复杂结构关系的各模态特征;a对于超图卷积层具体的公式定义如下:Xl+1=σLXlΘl1 其中:为超图与节点v∈N和超边e∈E的关联矩阵; 为对角矩阵表示节点度数,第ith对角元素为为表示超边度的对角矩阵,第jth对角元素为为表示超边权重的对角矩阵,第jth对角元素为第jth超边的权重;为超图的节点特征,C为特征维数;为网络模型中每个卷积层可学习的权重矩阵;b网络模型中有两个超图神经网络,分别负责处理图像模态的超图和文本模态的超图;输入均为超图的入射矩阵H、超边权重矩阵B和超图节点特征矩阵X,得到的输出为超图卷积后的节点特征步骤四:基于Transformer的自注意力和交叉注意力机制,关注不同模态的各自特性及模态间的重要交互信息;a自注意力模块;HGNN卷积后的超图节点特征会被拆分成N个节点特征向量,并复制成三份即查询Q、键K和值V,经过多头自注意力模块和前馈神经网络得到与节点特征相同维度的注意力权重输出;自注意力模块描述为将查询Q和一组键值对K、V映射到输出,输出计算为值V的加权和,其中分配给每个值的权重由查询与相应键的相似性计算得到,整体计算公式如下: 其中dK是输入K的维度;对于每个注意力头有:headi=AttentionQWiQ,KWiK,VWiV5其中,Wi为输入信息通过线性变换时的可学习的参数;此时的输出张量中已经得到了各模态的所需要关注的注意力信息;b交叉注意力模块;使用交叉注意力来权衡和挖掘模态之间的交互信息,将与答案相关的两个模态的特定区域相关联;最后分别将两个模态的交叉注意力与对应模态的自注意力相加,得到权衡图像和文本模态间不同特征的重要性且保留各模态独有的重要特征;步骤五:通过对两种注意力的组合,找到答案区域内的相关结构信息;通过超图神经网络得到单模态的特征输出,通过组合注意力层得到模态之间交互的特征权重,将二者组合,携带着单模态中对象之间的高阶结构特征以及单模态特有的信息,并且具有多模态之间的交互信息,能够很好的关注到与回答问题相关的重要信息;使用全局平均池化处理结合后的输出,最后合并起来通过分类层得到答案;步骤六:通过得到的注意力权值,动态更新超图对的超边权重;组合后的注意力权重通过前馈神经网络FFN的线性转换,得到与超边数一致的维度;根据对应超边所包含的节点计算超边的新权重,最后与更新前的超边权重矩阵做点乘,得到更新后的超边权重矩阵,并作为下次训练时的输入。

全文数据:

权利要求:

百度查询: 北京工业大学 融合动态异构超图神经网络与Transformer的视觉文本问答学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。