杭州电子科技大学;中国电子科技集团公司电子科学研究院余宙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学;中国电子科技集团公司电子科学研究院申请的专利一种多模态场景图知识增强的对抗式多模态预训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115331075B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210962059.3,技术领域涉及:G06V10/774;该发明授权一种多模态场景图知识增强的对抗式多模态预训练方法是由余宙;罗同桉;俞俊;袁柳;刘弋锋;许胜新设计研发完成,并于2022-08-11向国家知识产权局提交的专利申请。
本一种多模态场景图知识增强的对抗式多模态预训练方法在说明书摘要公布了:本发明公开了一种多模态场景图知识增强的对抗式多模态预训练方法。本发明步骤:1、构建图像区域的特征表示及图像先验知识,2、构建文本及跨模态先验知识,3、构建多模态场景图,4、构建对抗式噪声生成网络与多模态预训练网络,5、多模态场景图知识增强的对抗式预训练。本发明通过从图像和文本两个模态中提取先验知识,以此构建多模态场景图,并构建以多模态场景图知识增强的多模态自注意力网络为核心的对抗噪声生成网络,为输入的图文对数据生成噪声扰动,与多模态预训练网络进行对抗式多模态预训练,最终在下游任务上得到了更好的性能表现。
本发明授权一种多模态场景图知识增强的对抗式多模态预训练方法在权利要求书中公布了:1.一种多模态场景图知识增强的对抗式多模态预训练方法,其特征在于包括如下步骤: 步骤1:构建图像区域的特征表示及图像先验知识; 步骤2:构建文本及跨模态先验知识; 步骤3:构建多模态场景图; 步骤4:构建对抗式噪声生成网络与多模态预训练网络; 步骤5:多模态场景图知识增强的对抗式预训练; 步骤1进一步实现如下: 对于数据集中的每一张图像,使用在VisualGenome数据集上训练好的FasterR-CNN目标检测网络抽取图像中包含的至多M个物体和它们对应的空间位置,其中第m个物体的空间位置表示为视觉特征表示为预测的物体类目表示为其中位置坐标和视觉特征将作为图像区域的特征表示; 通过任意两个区域框之间的相对位置进行建模来生成相对位置关系信息;将第i个对象的空间位置定义为xi,yi,wi,hi,该四维坐标分别表示对象的中心点横纵坐标、宽、高;第i个对象和第j个对象之间的相对空间关系特征表示为具体公式如下: 通过任意两个区域框之间的IoU来表示相对空间关联信息,具体公式如下: 步骤2具体实现如下: 对于数据集中的每组图文对,使用训练好的场景图生成器提取文本描述中的对象词集合Wobj、属性词集合Wattr和关系词集合Wrel,并根据在全数据集上的统计的共现频率记录每个对象词wi∈Wobj和与其相关的属性词wj∈Wattr之间的语义关联以及每个对象词wi∈Wobj和与其相关的关系词wk∈Wrel之间的语义关联具体公式如下: 其中,ni、nj和nk分别表示词语wi、wj和wk在数据集中出现的次数,ni,j和ni,k分别表示词语wi和wj、wi和wk在数据集中共同出现的次数; 使用预先训练好的词向量模型分别将每个图像区域mi的目标类目所对应的类别文本与每个对象词wj∈Wobj转换为包含语义信息的词向量 利用余弦相似度计算两者之间的相对语义关联信息具体公式如下: 步骤3具体实现如下: 3-1.构建图像场景图 对于数据集中的每张图像,图像场景图Gi=Vi,Ei,Si将用来编码图像模态内的知识,顶点集Vi包含图像中的所有区域,边集Ei包含顶点之间的成对关系,相似度集Si表示边对应的由图像区域之间的相对位置信息和相对空间关联信息表示的相似度;对于某条边ei,j的相似度si,j,计算公式如下: 其中,Linear是线性变换;图像场景图Gi使用M×M的邻接矩阵表示,其中M表示图像场景图的顶点即图像区域的个数,矩阵中的第i行第j列的元素即为顶点i与顶点j之间的相似度si,j; 3-2.构建文本场景图 对于数据集中的每条文本,文本场景图Gt=Vt,Et,St将用来编码文本模态内的知识,顶点集Vt包含文本中的所有词语,边集Et包含顶点之间的成对关系,相似度集St表示边对应的由文本词语之间的语义关联信息表示的相似度;对于某条边ei,j的相似度si,j,由语义关联信息表示;同样地,文本场景图Gt使用N×N的邻接矩阵表示,其中N表示文本场景图的顶点即文本词语的个数,矩阵中的第i行第j列的元素即为顶点i与顶点j之间的相似度si,j; 3-3.构建跨模态关联图 对于数据集中的每组图文对,跨模态关联图Gc=Vc,Ec,Sc将用来编码模态间的知识,顶点集Vc包含图像中的所有区域和文本中的所有词语,边集Ec包含顶点之间的成对关系其两端的顶点属于不同的模态,相似度集Sc表示边对应的由图像区域和文本词语之间的语义关联信息表示的相似度;对于某条边ei,j的相似度si,j,由语义关联信息表示;同样地,跨模态关联图Gc使用M+N×M+N的邻接矩阵表示,其中M表示图像场景图的顶点即图像区域的个数,N表示文本场景图的顶点即文本词语的个数,矩阵中的第i行第j列的元素即为顶点i与顶点j之间的相似度si,j; 3-4.组成多模态场景图 对于数据集中的每组图文对,将图像场景图、文本场景图、跨模态关联图合并之后得到多模态场景图结构G=V,E,S来同时编码模态内和模态间的知识,其中V=Vi∪Vt∪Vc,E=Ei∪Et∪Ec,S=Si∪St∪Sc;顶点集V包含图像中的区域和文本中的词语,边集E以及相似度集S分别包含顶点之间的成对关系及其对应的相似度;其中由图像区域顶点构成的子图来自图像场景图,由文本词语顶点构成的子图来自文本场景图,连接图像区域顶点和文本词语顶点的跨模态边来自跨模态关联图;由于图像和文本模态的相似度分布可能有很大的不同,每个模态中的场景图表示需要进行归一化;同样地,多模态场景图G使用M+N×M+N的邻接矩阵表示,其中M表示图像场景图的顶点即图像区域的个数,N表示文本场景图的顶点即文本词语的个数,矩阵中的第i行第j列的元素即为顶点i与顶点j之间的归一化之后的相似度具体表示如下: 其中,P=M+N; 步骤4具体实现如下: 4-1.构建图像特征表示 图像首先由目标检测模型提取出的置信度最高的m个区域,其中的第i个区域表示为一个视觉特征和位置特征随后两个线性映射将这两种特征融合为一个d维的图像特征 其中最终,图像被表示为一个特征矩阵具体公式如下: X=[x1,x2,…,xm]公式9 4-2.构建文本特征表示 与图像配对的输入文本通过裁剪或填充到最多包含n个单词的序列;每个单词wi及其在序列中的位置i分别经过两个独立的嵌入层映射为向量,随后相加得到位置敏感的的文本特征表示yi,具体公式如下: yi=WordEmbedwi+IdxEmbedi公式10 其中yi是文本中单词wi的d维特征;最终,文本被表示为一个特征矩阵具体公式如下: Y=[y1,y2,…,yn]公式11 4-3.联合图像特征表示与文本特征表示 图像特征X=[x1,…,xm]和文本特征Y=[y1,…,yn]在输入到网络之前先进行串联拼接;在拼接后的特征中插入两个特殊的符号得到多模态输入特征Z,具体公式如下: Z=[x1,…,xm,[SEP],y1,…,yn,[CLS]]公式12 其中[SEP]符号标记了图像特征和文本特征的边界,[CLS]符号用于预测给定的图像和文本是否匹配; 4-4.构建多模态场景图知识增强的多模态自注意力网络 多模态场景图知识增强的多模态自注意力网络是一个L层的单流Transformer结构,Transformer中的每一层都由多模态场景图知识增强的多头自注意力KMSA模块和前馈网络Feed-ForwardNetworks,FFN模块组成,将多模态输入特征Z和多模态场景图G作为多模态场景图知识增强的多模态自注意力网络的输入,输出具体公式如下: 其中Z0=Z;每一个模块之后都会接入层归一化和残差连接,KMSE的输入是Zl-1和G,输出是富含多模态信息的特征向量具体公式如下: Q=Linear[Zl-1]公式15 K=Linear[Zl-1]公式16 V=Linear[Zl-1]公式17 其中Q、K、分别由Zl-1经过全连接层映射得到; ∈=1e-6,以避免下溢问题; 其中,MLP是两层感知机,具体公式如下: 其中,ReLU是激活函数,FC1、是全连接层; 其中,FFN结构的输入是具体公式如下: 4-5.构建噪声生成模块 噪声生成模块接受多模态场景图知识增强的多模态自注意力网络的输出,并使用两个MLP分别生成文本模态的对抗式噪声扰动Pl和图像模态的对抗式噪声扰动Pv,具体公式如下: Pv=MLPXL,Pl=MLPYL公式21 其中XL和YL分别是从多模态场景图知识增强的多模态自注意力网络的输出ZL中切分得到的多模态图像表征和多模态文本表征,具体切分过程如下: [x1 L,…,xm L],[[SEP]L,y1 L,…,yn L,[CLS]L]=XL,YL =Split[ZL]公式22 =Split[x1 L,…,xm L,[SEP]L,y1 L,…,yn L,[CLS]L] 4-6.构建多模态预训练网络 多模态预训练网络是一个单流结构,由数个堆叠的Transformer编码器构成其主干网络,且在主干网络之上还有多个MLP任务模块结构; 步骤5具体实现如下: 5-1.多模态预训练目标任务 多模态预训练网络在图文匹配任务、掩蔽语言建模任务和掩蔽区域建模任务三个VLP方法中常用的目标任务上进行预训练;ITM任务需要判断当前输入的图文对是否匹配;MLM和MRM分别对输入的文本词和图像区域进行随机的掩蔽,并且通过上下文环境来预测出被掩蔽的内容; 5-2.对抗式多模态预训练 在进行对抗式多模态预训练时,每个图像区域的视觉特征和每个文本词语wi分别经过视觉嵌入处理和文本嵌入处理之后得到图像特征X=[x1,…,xm]和文本特征Y=[y1,…,yn]; 之后将图像特征X和文本特征Y进行串联拼接,与多模态场景图一起送入由多模态场景图知识增强的多模态自注意力网络和噪声生成模块构成的对抗式噪声生成网络得到图像特征扰动和文本特征扰动,并将扰动施加在原数据的特征表示上得到扰动后的图像特征X'和扰动后的文本特征Y'; 如公式12所示,扰动前的图像特征X和文本特征Y将进行插入两个特殊符号的串联拼接,得到扰动前的多模态输入特征Z=[x1,…,xm,[SEP],y1,…,yn,[CLS]];扰动后的图像特征X'和扰动后的文本特征Y'同样进行串联拼接得到扰动后的多模态输入特征Z'=[x'1,…,x'm,[SEP],y'1,…,y'n,[CLS]],其中[SEP]符号和[CLS]符号不会施加扰动; 随后多模态预训练网络分别接受扰动后的多模态输入特征Z'和扰动前的多模态输入特征Z作为输入,分别输出扰动后的预训练任务分数与扰动前的预训练任务分数,并进一步计算扰动后的预训练任务损失和扰动前的预训练任务损失;此外,扰动后的预训练任务分数与扰动前的预训练分数还通过一个对称的KL散度计算的扰动差异损失; 最终,对抗式多模态预训练的优化目标表示为: 其中,为对抗式多模态预训练的总损失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学;中国电子科技集团公司电子科学研究院,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。