买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥工业大学
摘要:本发明公开了一种用于电子病历文本关系抽取的方法,包括:1.对文本进行预处理,并通过哈工大LTP工具生成依存句法图,并使用ALBERT预训练模型提取文本序列向量和实体关系向量;2.利用Bi‑LSTM模型处理文本序列向量,融入上下文信息;3.结合依存句法图和文本序列,通过图注意力网络GAT提取句法信息;4.利用首尾指针网络识别头实体位置,以及通过异构图神经注意力网络HGAT进行节点特征交互,获取融合关系信息的文本表征;5.通过多层指针网络识别尾实体及关系,并构建关系三元组头实体,关系,尾实体。本发明能有效抽取电子病历文本中的关系三元组,利用句法信息与预定义实体关系提升抽取精度。
主权项:1.一种基于句法分析的中文电子病历文本关系的抽取方法,其特征在于,是按如下步骤进行:步骤1:对中文电子病历的主诉部分的文本进行预处理,得到预处理后的文本序列,从而构建中文电子病历语料库D;根据中文电子病历的医学实体关系,构建预定义关系集合R={r1,r2,…,rj,…,rm},rj表示第j种关系,j∈[1,m],m表示关系的种类总数;步骤2:对中文电子病历语料库D中任意一个文本序列S={s1,s2,…,si,…,sn}构建对应的句法依存图G,其中,si表示第i个字符,i∈[1,n];根据所述句法依存图G中各个字符之间的依存句法关系,构建句法依存邻接矩阵Adep;步骤3:构建关系抽取网络,包括:ALBERT预训练模型、Bi-LSTM模型、图注意力网络GAT、首尾指针网络、异质图注意力网络HGAT和多层首尾指针网络;步骤3.1:利用所述ALBERT预训练模型对所述文本序列S进行编码,得到初始化的向量表征序列E={e1,e2,…,ei,…,en},ei表示第i个字符si所对应的编码特征;利用ALBERT预训练模型对所述预定义关系集合R进行编码,获取初始化的关系向量ER={er1,er2,…,erj,…,erm},erj表示第j种关系rj所对应的编码特征;步骤3.2:利用所述Bi-LSTM模型对初始化的向量表征序列E进行编码,获取包含上下文语义信息的向量表征L={l1,l2,...,li,...,ln},其中,li表示第i个编码特征ei在正、反方向上LSTM的输出结果拼接得到的隐层向量表征;步骤3.3:将包含上下文语义信息的向量表征L作为句法依存邻接矩阵Adep中字符的初始表征,并按照Adep中各字符间的依存句法关系,利用所述图注意力网络GAT对向量表征L进行节点的信息更新,获得包含依存句法信息的特征表示序列其中,表示第i个字符si经过图注意力网络GAT后得到的包含句法信息的特征表示;步骤3.4:利用所述首尾指针网络对进行处理,得到关系三元组头实体,关系,尾实体中的头实体EntH的位置及其对应的头实体表征EnbH;步骤3.5:根据依存句法表征H以及关系向量ER构建异构图,所述异构图中包括两类节点分别为字符节点以及关系节点,利用异质图注意力网络HGAT进行异构节点的信息更新,得到融合关系信息的文本序列S的向量表示U,并与头实体表征EmbH进行融合后,获得包含头实体信息的融合特征向量C;步骤3.6:定义多层首尾指针网络的层数m为预定义关系的种类总数,利用所述多层首尾指针网络对所述融合特征向量C进行处理,获得关系三元组头实体,关系,尾实体中尾实体EntT的位置及对应关系Rel,并与头实体EntH的位置进行组合后,获得最终预测的关系三元组头实体,关系,尾实体,记为EntH,Rel,EntT;步骤4:对所述关系抽取网络构建总体损失函数Ltotal=Lce1+Lce2,其中,Lce1和Lce2分别为所述首尾指针网络和多层指针网络的二元交叉熵损失函数;步骤5:利用梯度下降法对所述关系抽取网络进行训练,并计算所述总体损失函数Ltotal以更新网络参数,当迭代次数达到设定的次数或总体损失函数Ltotal收敛时,训练停止,从而得到最优关系抽取模型,用于抽取电子病历文本中的关系三元组头实体,关系,尾实体。
全文数据:
权利要求:
百度查询: 合肥工业大学 一种基于句法分析的中文电子病历文本关系的抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。