买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于LatticeLSTM模型的中文电子病历的实体识别方法,包括以下步骤:步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;步骤2:基于双向LatticeLSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。此发明解决了传统中文电子病历命名实体识别存在的不足,通过LatticeLSTM模型利用了显性的词信息,使用BERT预训练语言模型融合了字的上下文相关表示,表征字的多义性,引入医学领域的外部词典资源,不仅提升了模型的识别效果,对未登录词也有一定的发现能力。
主权项:1.一种基于LatticeLSTM模型的中文电子病历的实体识别方法,其特征在于,包括以下步骤:步骤1:对电子病历数据进行特征向量训练,获得电子病历数据的特征向量;所述特征向量训练包括以下步骤:步骤1.1:构建包含普通文本和医学专业词汇的词典组合;步骤1.2:对所述电子病历数据进行预处理,获得预处理后的电子病历数据;所述预处理包括以下步骤:步骤1.2.1:对所述电子病历数据进行去隐私化处理,获得去除病人隐私信息的去隐私病例数据;步骤1.2.2:对所述去隐私病例数据进行残句处理,获得处理后的电子病例数据;步骤1.2.3:基于正则匹配方法,对所述处理后的电子病历数据进行过滤清洗,获得过滤后的电子病历数据;步骤1.2.4:对所述过滤后的电子病历数据进行数据标注,获得预处理后的电子病历数据;步骤1.3:基于BERT预训练语言模型,对所述预处理后的电子病历数据进行字向量训练,获得电子病历数据的字特征向量;步骤1.3.1:读取将所述预处理后的电子病历数据中的字符序列;步骤1.3.2:所述BERT预训练语言模型将字词序列一一进行字符映射,获得所述BERT预训练语言模型的词输入向量;步骤1.3.3:对所述词输入向量进行特征训练,输出所述字特征向量;步骤1.4:根据所述词典组合与所述预处理后的电子病历数据中的字词序列,进行词向量训练,获得所述电子病历数据向量中每个字词序列的词特征向量;步骤1.5:将所述字特征向量与所述词特征向量进行特征融合,获得所述电子病历数据的特征向量;步骤2:基于双向LatticeLSTM编码模型,对所述特征向量进行双向特征向量编码,获得电子病历数据的输出状态序列;所述双向特征向量编码包括以下步骤:步骤2.1:基于sigmoid激活函数和LatticeLSTM编码模型,对所述特征向量进行字向量编码,获得电子病历数据的字输出向量;步骤2.1.1:基于sigmoid激活函数和LatticeLSTM编码模型,对所述特征向量进行编码,获得每个索引位置的输入门、每个索引位置的遗忘门、每个索引位置的输出门和每个索引位置的候选值;步骤2.1.2:根据所述每个索引位置的输入门、每个索引位置的遗忘门和每个索引位置的候选值,计算每个索引位置的记忆单元;步骤2.1.3:根据所述每个索引位置的输出门和所述每个索引位置的记忆单元,计算出每个索引位置的所述字输出向量;步骤2.2:基于LatticeLSTM编码模型,对所述特征向量进行词向量编码,获得电子病历数据的词输出向量;步骤2.3:根据所述词输出向量和所述特征向量,进行特征向量融合,获得电子病历数据的更新特征向量;所述特征向量融合包括以下步骤:步骤2.3.1:将所述特征向量与所述词输出向量进行向量融合,获得所述词输出向量的门控单元;步骤2.3.2:根据所述门控单元和所述特征向量,分别进行字粒度信息和词粒度信息的归一化权重计算,分别获得每个索引位置的字粒度权重和每个索引位置的词粒度权重;步骤2.3.3:根据所述每个索引位置的字粒度权重和所述每个索引位置的词粒度权重,对所述词输出向量和所述特征向量进行向量更新,计算出每个索引位置的所述更新特征向量;步骤2.4:基于LatticeLSTM编码模型,对所述更新特征向量和所述特征向量分别进行隐藏层单向编码和反向编码,分别获得电子病历数据的单向特征向量和反向特征向量;步骤2.5:将所述单向特征向量与所述反向特征向量进行向量拼接,获得所述电子病历数据的双向特征向量,从而计算出所述电子病历数据的输出状态序列;步骤3:基于CRF模型的转移特征性,对所述输出状态序列进行标注概率排序,获得实体识别的结果,完成实体识别。
全文数据:
权利要求:
百度查询: 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。