买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明属于自然语言处理领域,具体涉及一种基于图注意力网络和字词融合的医疗命名实体识别方法,包括将待识别的文本序列输入Bert模型,得到文本序列中每一个文字的特征向量,即得到字特征;通过SoftLexicon方法将与文本序列中字符匹配的词汇表示层特征向量,即得到词汇特征;令字特征指向与之对应的词汇特征构建有向图,并利用邻接矩阵保存有向图的信息,将字特征、词汇特征及其对应的邻接矩阵利用图注意力网络进行融合,得到字词特征向量;利用BiLSTM网络对字词特征向量进行上下文语义提取,得到上下文语义向量;将上下文语义向量输入条件随机场层,预测得到文本序列对应的标签;本发明有效提高医疗命名实体识别的准确率。
主权项:1.基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,构建实体识别网络,该网络包括嵌入层、图注意力层、上下文编码层以及条件随机场层,进行实体识别的过程包括以下步骤:在嵌入层中,将待识别的文本序列输入Bert模型,得到文本序列中每一个文字的特征向量,即得到字特征;通过SoftLexicon方法将与文本序列中字符匹配的词汇表示层特征向量,即得到词汇特征;在图注意力层,令字特征指向与之对应的词汇特征构建有向图,并利用邻接矩阵保存有向图的信息,将字特征、词汇特征及其对应的邻接矩阵利用图注意力网络进行融合,得到字词特征向量,具体包括以下步骤:根据邻接矩阵中节点的连接关系,计算一个节点的相邻节点对其的注意力系数,并根据该注意力系数对节点向量表示进行加权;利用注意力系数对特征向量进行加权求和处理的过程中,采用多头注意力,即使用K组注意力层分别获取注意力系数,将K组注意力系数分别对输入特征进行加权后拼接起来作为图注意力网络的输出,表示为: 其中,表示第k个注意力层获得的注意力系数,Wk表示第k个注意力层的可训练参数;将加权后的向量表示输入一个前馈神经网络,并采用残差连接和层归一化,得到一个节点的图注意力向量表示,即:FFNhi′=max0;hi′W1+b1W2+b2G=LayerNormFFNhi′+hi′将矩阵G的第1~n列拆分出来作为待融合的字特征,其他列作为待融合的词汇特征,将两个矩阵重新进行融合,表示为:G′=M1*G[:,0:n]+M2*G[:,n:]其中,FFN·表示前馈神经网络,W1、W2、b1、b2、M1∈Rd′*d′和M2∈Rd′*d′均是可训练的参数,LayerNorm表示层归一化操作;G′∈Rd′*n是图注意力网络层最终的输出;将字特征对应节点、词汇特征对应节点的图注意力向量表示进行融合,得到字词特征向量;在上下文编码层,利用BiLSTM网络对字词特征向量进行上下文语义提取,得到上下文语义向量;将上下文语义向量输入条件随机场层,预测得到文本序列对应的标签。
全文数据:
权利要求:
百度查询: 重庆邮电大学 基于图注意力网络和字词融合的医疗命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。