Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于跨模态多层信息融合的隐喻识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:新疆大学

摘要:基于跨模态多层信息融合的隐喻识别方法,其属于自然语言处理领域。该方法提出了适用于多模态隐喻检测的融合框架,通过前馈引导融合模块和相似度感知聚合器对不同模态的特征进行多层融合。通过生成图片的文本描述来扩充数据的文本量,并将该文本描述作为第三种模态信息加入到多模态隐喻检测任务中。该模型结构并不复杂,因此在多模态隐喻检测性能表现较好的情况下有着较高的运行效率,节约时间,减少成本。

主权项:1.基于跨模态多层信息融合的隐喻识别方法,包括以下步骤:S1.使用多语言BERT预训练模型对文本数据进行处理,使用BERT最后一层的隐藏状态作为文本嵌入来进行后续的融合步骤;对于文本t=w1,w2,...,wn,w表示句子中的词语,n代表句子中词语的个数,进行以下操作:ET=BERTt其中,t是原始文本,BERT包括分词、添加特殊标记操作;在此过程中,设置最大长度对输入的文本数据进行填充或截断,得到文本嵌入表示为ET;S2.对于图像数据使用Resnet50作为特征提取器,将最后一个全连接层的输入特征作为视觉嵌入进行后续的融合步骤;EV=Resnet50v得到视觉嵌入表示为EV;其中,H0和W0分别代表图像数据的高和宽;S3.由图像数据获得对应的文本描述,通过引入双流模型使用对象感知转换器来转换输入空间中的图像,再利用单通道非自回归文本生成方法生成所需的图片的文本描述信息构建辅助句;具体操作如下:S3.1对于给定的输入图像,使用ResNet101生成激活图并沿着空间维度进行平化得到新的特征图z0∈Rd×HW,其中H和W分别是生成特征图的高和宽,d是特征图的维度;S3.2对特征图使用位置编码进行强化并将结果传递到DETR编码器层堆栈中使用多头注意力进行处理;S3.3使用解码器通过预测输入图像在一次前向传递中的描述来进行非自回归文本生成,得到辅助句T_aux;S4.前馈引导融合交互在跨模态注意力机制的基础上使用文本嵌入ET和视觉嵌入EV计算后的融合嵌入E作为后续注意力机制计算使用的键、值向量,使得模型在获取不同模态信息不同权重的基础上得到对于两个模态间信息的关联;计算步骤如下所示:T=AttnETWiQ,ETWiQ,ETWiQE=catET,EVV=AttnEVWiQ,EWiQ,EWiQT是文本嵌入在经过标准注意力机制计算后的结果;ET和EV分别是上文获取的文本嵌入和视觉嵌入,E是经过计算后得到的融合嵌入;V是视觉嵌入使用前馈引导融合的计算结果;在T、V的计算中,i表示第i个注意力头,WiQ、WiK、Wiv分别是查询、键和值的线性映射权重矩阵;Attn中包括以下步骤:Qi=EnWiQ,Ki=EmWiK,Vi=EmWiV headi=softmaxscoreiViAtt=cathead1,..,head8Wf对于输入序列Em代入上文的文本嵌入ET或融合嵌入E经过线性映射得到所需的查询Qi、键Ki和值Vi,其中,WiQ、WiK、WiV分别是查询、键和值的线性映射权重矩阵;接着使用得到的查询、键和值来计算每个头的注意力得分scorei,并用softmax函数进行激活获得注意力得分softmaxi,使用注意力得分对值Vi进行加权求和最终得到第i个注意力头的输出headi;其中,dk是键的维度,是缩放注意力分数,将每个注意力头的输出拼接在一起,经过线性映射得到最终注意力机制的结果,Wf是最终输出的线性映射权重矩阵;S5.使用相似度感知聚合器进行二次信息融合:对于经过前缀引导融合模块的文本输出T,使用上文的视觉输出V计算其视觉标记的相似度矩阵:S=T·VTfusionprobs=softmaxS0=fusionprobs·V其中,S表示融合得分矩阵,fusionprobs代表融合权重矩阵,融合权重矩阵由融合得分矩阵每一行应用softmax操作得到,将相似度得分转化为融合权重;O代表最终相似度感知聚合的输出,计算O的过程将融合输出V进行加权平均,其中融合权重决定每个V最终输出中的贡献;S6.将辅助句与融合特征使用简单融合方法融合,并通过对该特征的分析处理进行最终的隐喻检测识别:V=FeedforwardVC=catO,V,T_auxX=LinearC使用前馈神经网络对视觉的嵌入V进行处理,将处理后的视觉的嵌入V、相似度感知聚合结果O以及生成的辅助句T_aux进行融合得到最终进行隐喻识别的向量C;最后使用线性层对向量C进行处理,得到一个一维张量,该张量大于0.5则判定该数据为隐喻,反之则是非隐喻。

全文数据:

权利要求:

百度查询: 新疆大学 基于跨模态多层信息融合的隐喻识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。