买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州祺鲸科技有限公司
摘要:本发明公开了一种基于多轮问诊的标准症状抽取方法。1获取历史在线问诊对话文本;2基于医疗信息抽取模型抽取问诊文本中所有的症状;3根据医学标准症状术语库获取症状对应的标准症状;4基于症状阴阳性识别模型获取当前症状为阳性的概率;5拼接属于同一标准症状的症状所在的问诊文本;6基于预先建立的标准症状阴阳性识别模型判断该标准症状是否为患者当前所患有;7集成症状和标准症状阴阳性识别模型的预测结果判断患者当前所患有的标准症状。本发明基于多轮问诊的特点分别构建医疗信息抽取模型、症状标准化模型、症状阴阳性识别模型和标准症状阴阳性识别模型,进而实现对问诊对话的标准症状抽取,具有较高的抽取成功率和准确率。
主权项:1.一种基于多轮问诊的标准症状抽取方法,包括如下步骤:步骤1)获取待抽取标准症状的在线多轮问诊文本,并对多轮问诊文本数据进行数据清洗,得到初始文本;步骤2)采用基于BERT模型的医疗信息抽取模型对步骤1)得到的初始文本中的每段问诊文本进行症状信息抽取,获取初始文本中提及的所有症状;步骤3)基于BERT模型的症状标准化模型对通过步骤2)从每段问诊文本抽取的每个症状进行标准化,从而获取每个症状对应的标准症状;步骤4)将步骤2)中每个抽取的症状及其所在的问诊文本段落输入基于BERT模型的症状阴阳性识别模型,判断此症状是否为患者当前所患有;步骤5)对于步骤2)中获取的所有症状,将所有属于同一个标准症状的症状所在的问诊文本以分号作为分隔符拼接成新文本,记作标准症状所在的拼接后的问诊文本;步骤6)将每个步骤5)获取的标准症状所在的拼接后的问诊文本及对应的标准症状输入基于BERT模型的标准症状阴阳性识别模型,判断输入的标准症状是否为患者当前患有;步骤7)综合步骤4)和步骤6)的症状阴阳性识别概率,判断患者是否患有在线多轮问诊中抽取的标准症状;所述步骤2)具体包括以下步骤:2.1)将每段问诊文本输入医疗信息抽取模型,并将输入组织成下述BERT形式;TOKEN的输入为:[CLS]问诊文本[SEP];SEGMENT的输入为:问诊文本中每个字符对应的编码为1;POSITION的输入为:将问诊文本中的每个字符按阿拉伯数字顺序进行位置编码,起始编码为0;[CLS]、[SEP]的位置编码均为0;2.2)采用BERT对步骤2.1)输入的问诊文本进行文本语义编码,获取问诊文本中各字符对应的融合全文语义信息后的语义特征向量;2.3)将步骤2.2)中获取的语义特征向量乘以分类参数矩阵,再加上一个偏置参数,从而每个字符生成与预设的字符类型标签数量相等维度的分类向量;2.4)通过Softmax函数将步骤2.3)中生成的分类向量转化为概率输出;选取概率最大的分类向量对应的字符类型标签作为每个字符的预测结果;2.5)将问诊文本中实体类型标签同类的连续字符进行组合获得一种或多种医疗实体,并记录医疗实体对应的实体类型标签;2.6)对初始文本中每段问诊文本采用步骤2.1)~2.5)的操作,获取每段问诊文本的医疗实体和其对应的实体类型标签;2.7)过滤每段问诊文本中实体类型标签不为症状的医疗实体,过滤后的医疗实体即为每段问诊文本中包含的所有症状;所述步骤3)具体包括以下步骤:3.1)获取预置的医学标准症状术语库,将步骤2)抽取的每个症状与医学标准症状术语库中的一个医学标准症状术语输入症状标准化模型,输入组织成下述BERT形式:TOKEN的输入为:[CLS]抽取的症状[SEP]医学标准症状术语库中的医学标准症状[SEP];SEGMENT的输入为:抽取的症状对应编码为0,医学标准症状术语库中的医学标准症状对应编码为1,符号[CLS]和第一个[SEP]对应编码为0,第二个[SEP]对应的编码为1;POSITION的输入为:将抽取的症状和医学标准症状术语库中的医学标准症状分别按阿拉伯数字顺序进行位置编码,每个症状的起始编码为0,[CLS]、[SEP]对应的编码均为0;3.2)采用BERT对步骤3.1)的输入文本进行文本语义编码,获取输入的各字符对应的融合全文语义信息后的向量,所述向量为包含抽取症状和医学标准症状之间相似度的语义特征向量;3.3)将步骤3.2)中获取的[CLS]对应的语义特征向量输入全连接层,并采用Sigmoid函数激活后得到抽取的症状和医学标准症状之间的相似度;3.4)对于每段问诊文本中每个抽取的症状,将抽取的症状与医学标准症状术语库中每个医学标准症状进行步骤3.1)~步骤3.3)的操作,获取抽取的症状与医学标准症状术语库中所有医学标准症状之间的语义相似度;取与抽取症状语义相似度最高的医学标准症状作为标准化的结果,即每个抽取症状对应的标准症状;3.5)对步骤2)抽取的所有症状采用步骤3.4)的操作,获取每个抽取症状对应的标准症状;所述步骤4)具体包括以下步骤:4.1)将问诊文本的输入者信息融入症状所在的问诊文本:若问诊文本的输入者为患者,则在问诊文本前拼接患者加冒号;若文本的输入者为医生,则在问诊文本前拼接医生加冒号;4.2)将模型的输入信息组织成下述BERT形式:TOKEN的输入为:[CLS]症状[SEP]症状所在的问诊文本[SEP];SEGMENT的输入为:症状对应编码为0,症状所在的问诊文本对应编码为1;POSITION的输入为:症状和症状所在的问诊文本中的每个字符分别按阿拉伯数字顺序进行位置编码,起始编码为0;4.3)采用BERT对输入信息进行文本语义编码,获取输入的每个字符对应的融合全文语义信息后的向量,所述向量为包含症状是否为阳性的语义特征向量4.4)将步骤4.3)中获取的[CLS]对应的语义特征向量输入全连接层,并采用Sigmoid函数激活后得到通过语义判断症状为阳性的概率;当症状阴阳性识别模型预测症状为阳性的概率大于或等于0.5时,判断当前症状为阳性,反之为阴性;所述步骤5)具体包括以下步骤:5.1)对于步骤2)中获取的症状,将文本输入者信息融入症状所在的问诊文本,获得融入文本输入者信息的问诊文本:若文本的输入者为患者,则在问诊文本前拼接患者加冒号;若文本的输入者为医生,则在问诊文本前拼接医生加冒号;5.2)将属于同一个标准症状的症状所在的融入文本输入者信息的问诊文本以分号作为分隔符拼接成新文本作为该标准症状的上下文信息,记为标准症状所在的拼接后的问诊文本;所述步骤6)具体包括以下步骤:6.1)将输入标准症状阴阳性识别模型的信息组成下述BERT形式:TOKEN的输入为:[CLS]标准症状[SEP]标准症状所在的问诊文本[SEP];SEGMENT的输入为:标准症状对应编码为0,标准症状所在的拼接后的问诊文本对应编码为1;POSITION的输入为:标准症状中的所有字符按阿拉伯数字顺序进行位置编码,起始编码为0;标准症状所在的拼接后的问诊文本中的所有字符以未拼接前文本为编码单位,每个编码单位内以0作为起始编码按阿拉伯数字顺序进行位置编码;TYPE的输入为:标准症状对应编码为0;标准症状所在的拼接后的问诊文本中输入者为医生的文本对应编码为1,输入者为患者的文本对应编码为2;6.2)采用BERT对TOKEN的输入、SEGMENT的输入和POSITION的输入进行文本语义编码,获取输入的各字符对应的融合全文语义信息后的向量,所述向量为包含标准症状是否为阳性的语义特征向量;6.3)TYPE的输入通过TYPE嵌入层映射到TYPE向量;所述TYPE嵌入层为可训练的参数矩阵;6.4)将步骤6.2)中获取的语义特征向量与步骤6.3)获取的TYPE向量进行拼接,拼接后的向量通过一个激活函数为Relu函数的全连接层获取融入TYPE信息的语义特征向量;6.5)将[CLS]对应的融入TYPE信息的语义特征向量输入全连接层,并通过Sigmoid函数激活后得到标准症状为阳性的概率。
全文数据:
权利要求:
百度查询: 杭州祺鲸科技有限公司 一种基于多轮问诊的标准症状抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。