买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海大学
摘要:本发明公开了一种基于BIC的中文电子病历实体标注新方法,属于自然语言处理技术领域,用来解决中文电子病历实体识别及标注的问题;步骤如下:先根据实际需求给出相应的医学实体标注规范,接着人工标注少量数据,将人工标注的数据进行数据处理,处理成模型所需数据格式,形成训练数据;接着训练模型参数,生成序列标注模型,该模型包含双向长短时记忆网络、迭代空洞卷积神经网络、条件随机场,设置模型的解码端;将待标注数据输入到序列标注模型,输出结果,得到机器标注的数据;然后由人工审查修正部分标注错误,再经过数据处理操作,得到模型所需训练数据,再次进行模型训练。本发明方法能够实现中文电子病例数据的自动标注,准确率高。
主权项:1.一种基于BIC的中文电子病历实体标注方法,其特征在于,具体操作步骤如下:1首先根据实际需求给出相应的医学实体标注规范,接着人工标注少量数据,将人工标注的数据进行数据处理,处理成模型所需数据格式,形成训练数据;2接着训练模型参数,生成序列标注模型,该模型包含双向长短时记忆网络BiLSTM、迭代空洞卷积神经网络IDCNN、条件随机场CRF,其中BiLSTM、IDCNN作为模型的编码端,CRF作为模型的解码端;3将待标注数据输入到序列标注模型,输出结果,得到机器标注的数据;4然后由人工审查修正部分标注错误,再经过数据处理操作,得到模型所需训练数据,再次进行模型训练;在所述步骤2中,生成序列标注模型的方法如下:a.模型的输入是中文文本,根据不同长度文本,分为不同训练批次,每个训练批次有20句文本,将一批训练文本通过嵌入层转化为张量,每一批训练文本通过补空达到长度一致;b.嵌入层得到输入数据的张量,经过编码端处理,编码端由BiLSTM与IDCNN组合形成,设置BiLSTM隐藏层神经元数量,由BiLSTM层的输出对应张量;c.将BiLSTM层的输出输入到IDCNN层提取文本局部细节特征;IDCNN层由四个迭代的空洞卷积神经网络组合形成,设置每一个空洞卷积神经网络卷积核大小,空洞卷积有三层,设置每一层的空洞大小,做卷积操作后进行输出为,最后四个迭代空洞卷积结果拼接形成编码端的输出数据对应张量;d.解码端由条件随机场计算输入数据对应的标签Tag;首先编码端的输出经过一个神经网络,设置网络权重,经过该网络得到逻辑回归值对应张量,从而生成序列标注模型。
全文数据:
权利要求:
百度查询: 上海大学 一种基于BIC的中文电子病历实体标注方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。