首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于BERT语言模型与深度局部特征的关系抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广西师范大学

摘要:本发明公开了一种基于BERT语言模型与深度局部特征的关系抽取方法,涉及人工智能中自然语言识别处理领域。首先,使用BERT语言模型作为编码器,使同一个单词能在不同的句子上下文中表示不同的语义,以便下游网络能更精确地提取出文本特征。其次,利用一个由多头自注意力和多层卷积神经网络组成的下游网络对BERT编码进行深度局部特征抽取。多头的自注意力可以更充分理解上下文信息,多层卷积神经网络能够获取从简单到复杂的深层局部特征,构建出更加丰富和层次化的句子局部特征表示。最终,设计出基于门控机制的特征向量融合层,通过设计更新门和重置门来衡量不同特征向量的贡献度,生成精准的分类向量。

主权项:1.一种基于BERT语言模型与深度局部特征的关系抽取方法,其特征在于包括以下步骤:S1.将待抽取关系的句子按照R-BERT方法进行预处理,并将预处理后的句子送入到一个BERT语言模型进行编码,得到句子的BERT编码;S2.分别对待抽取关系的目标实体1和目标实体2的子词序列在句子BERT编码中的隐藏状态求平均值,得到目标实体1和目标实体2的隐藏编码,然后分别将目标实体1和目标实体2的隐藏编码,以及分类符在句子BERT编码中的隐藏状态进行激活函数和线性层的处理,得到目标实体1、目标实体2和分类符的特征向量;S3.将句子的BERT编码送入一个由多头自注意力和多层卷积神经网络组成的深度局部特征抽取模块,得到句子的局部特征向量;S4.将目标实体1、目标实体2和分类符的特征向量,以及句子的局部特征向量送入一个由线性层与门控组成的特征向量融合层,得到句子的分类向量,然后将句子的分类向量送入分类层,得到句子中目标实体1和目标实体2之间的关系类别标签;所述BERT神经网络是指GoogleAILanguage在论文“DevlinJ,ChangMW,LeeK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivpreprintarXiv:1810.04805,2018”中提出的BidirectionalEncoderRepresentationsfromTransformersBERT语言模型;所述R-BERT方法是指Wu与He在论文“WuS,HeY.Enrichingpre-trainedlanguagemodelwithentityinformationforrelationclassification[C]Proceedingsofthe28thACMinternationalconferenceoninformationandknowledgemanagement.2019:2361-2364.”中提出的一种基于BERT的关系抽取处理方法;所述步骤S1具体包括:S1.1按照R-BERT方法对包含两个目标实体e1和e2的句子S进行处理,在第一个目标实体e1的开头和结尾处分别插入一个特殊标记“$”,在第二个目标实体e2的开头和结尾处分别插入一个特殊标记“#”,得到预处理后的句子S′;S1.2将预处理后的句子S′送入到一个BERT语言模型进行编码,得到如下所示的句子S′的BERT编码Hs: 其中,j1、k1分别是目标实体e1在句子S′中的开始位置与结束位置,j2、k2分别是目标实体e2在句子S′中的开始位置与结束位置,分别是目标实体e1的第一个子词和最后一个子词在BERT编码Hs中的隐藏状态,分别是目标实体e2的第一个子词和最后一个子词在BERT编码Hs中的隐藏状态,n为句子S′被BERT语言模型切分出的子词数量,d为BERT语言模型中隐藏状态的维度;所述步骤S2具体包括:S2.1分别对目标实体e1和目标实体e2的子词序列在BERT编码Hs中的隐藏状态求平均值,并送入双曲正切激活函数和线性层liner1进行处理,得到e1和e2的特征向量计算过程如下所示: 其中,tanh·表示双曲正切激活函数,W1∈Rd×d、b1∈Rd分别表示线性层liner1的权重与偏置参数,为BERT编码Hs中的第t个隐藏状态;S2.2将分类符[CLS]在句子BERT编码中的隐藏状态送入双曲正切激活函数和线性层liner2进行处理,得到分类符[CLS]的特征向量计算过程如下所示: 其中,W2∈Rd×d、b2∈Rd分别表示线性层liner2的权重与偏置参数;所述步骤S3具体包括:S3.1将句子的BERT编码Hs送入一个多头注意力,得到句子的注意力编码Hm,计算过程如下所示:Hm=MHSAHs∈Rn×d5其中,MHSA·表示一个缩放点积多头自注意力,所述缩放点积多头自注意力为论文“VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.”所提出;S3.2将句子的注意力编码Hm送入一个L层的卷积神经网络,进行深度局部特征抽取,得到第L层的卷积神经网络的输出,其中第l层的卷积神经网络的计算过程如下所示: 其中,δ·表示ReLU激活函数,为第l层卷积神经网络中的卷积核参数,且有d1=d为卷积核的数量,d2=d为输入通道数,e表示卷积核的窗口宽度,为第l层卷积神经网络中的偏置参数,为第l层卷积神经网络的输入,且当l=1时有为第l层卷积神经网络的输出,且当l=L时表示第L层的卷积神经网络的输出;S3.3将第L层的卷积神经网络的输出进行最大池化,得到的池化向量将句子S′的BERT编码Hs进行平均池化,得到Hs的池化向量vs,然后将与vs进行逐点相加的残差连接,得到句子的局部特征向量计算过程如下所示: vs=AvePoolingHs∈Rd8 其中,MaxPooling·表示平均池化操作,AvePooling·表示平均池化操作,“+”表示逐点相加;所述步骤S4具体包括:S4.1将两个目标实体e1和e2的特征向量和分别拼接在局部特征向量和分类符[CLS]的特征向量的后面,形成拼接特征向量和计算过程如下所示: 其中,[:]表示向量的拼接运算;S4.2将拼接特征向量和分别送入线性层liner3和liner4进行线性变换,得到句子的全局特征向量和并将和拼接成组合特征向量计算过程如下所示: 其中,W3∈Rd×3d、b3∈Rd分别为线性层liner3的权重与偏置参数,W4∈Rd×3d、b4∈Rd分别为线性层liner4的权重与偏置参数;S4.3分别使用组合特征向量初始化更新门gate1和重置门gate2的门控状态gu和gr,计算过程如下所示: 其中,Wu∈Rd×2d、bu∈Rd分别为更新门gate1的权重与偏置,Wr∈Rd×2d、br∈Rd分别为重置门gate2的权重与偏置,sigmoid·表示sigmoid激活函数;S4.4根据门控状态gu和gr,分别计算特征向量融合层的候选向量Hcan∈Rd和最终的分类向量Z∈Rd,计算过程如下所示: 其中,tanh·表示双曲正切函数激活函数,⊙表示逐点相乘,Wh∈Rd、bh∈Rd分别为一个线性层的权重与偏置;S4.5将分类向量Z送入分类层,得到句子S中目标实体e1和e2之间的关系类别标签计算过程如下所示:o=WoZ+bo19p=Softmaxo20 其中,Ω表示关系类别的标签集合,o∈R|Ω|为分类向量Z在标签集合Ω上的置信向量,|Ω|为标签集合Ω中的标签个数,Wo∈R|Ω|×d、bo∈R|Ω|分别为分类层中的权重与偏置,p∈R|Ω|为句子S的关系抽取在标签集合Ω上的概率分布向量,Sofmtax·表示神经网络中的归一化指数函数,表示求使得py为最大值的Ω中标签y,py表示p中标签y的概率,y为Ω中的任意一个标签。

全文数据:

权利要求:

百度查询: 广西师范大学 一种基于BERT语言模型与深度局部特征的关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术