首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

表示病历文本向量的方法、装置及问诊系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学

摘要:本发明公开了一种表示病历文本向量的方法、装置及问诊系统,一种表示病历文本向量的方法,包括:获取病历文本,将所述病历文本转换成词列表;利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;分别将所述词向量转换为文本向量;将所有所述文本向量进行合成,得到合成文本向量;其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。

主权项:1.一种表示病历文本向量的方法,其特征在于,包括:步骤1:获取眩晕症对应的待诊断病历文本,利用分词工具将所述待诊断病历文本转换成词列表;其中,所述眩晕症对应的病历文本配置为利用录音设备实时采集医生针对眩晕症所提出的问题以及患者针对问题的应答对应的问诊文本;步骤2:利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;其中,所述至少2个预设的词向量模型至少包括:word2vec模型和GloVe模型;利用word2vec模型和GloVe模型分别将所述词列表中的每个词转换第一词向量和第二词向量;步骤3:分别将所述至少2个预设的词向量模型对应的第一词向量和第二词向量转换为对应的文本向量其中,所述分别将所述至少2个预设的词向量模型对应的第一词向量和第二词向量转换为对应的文本向量: 其中,所述为所述词列表中的所有词的词向量集合,n表示所述词列表中词的个数,i表示词向量模型的个数,max表示取最大值,min表示取最小值,mean表示取均值,h表示词向量转换为文本向量的操作,表示拼接;步骤4:并将至少所述第一词向量和所述第二词向量对应的所有所述文本向量进行合成,得到合成文本向量;其中,所述将至少所述第一词向量和所述第二词向量对应的所有所述文本向量进行合成,得到合成文本向量的方法,包括:对所述至少所述第一词向量和所述第二词向量对应的所有所述文本向量进行拼接,得到对应的合成文本向量;步骤5:将所述合成文本向量输入分类模型,所述分类模型完成所述病历文本的分类;将所述分类模型配置为预设诊断模型,所述预设诊断模型的构建过程,包括:在将所述合成文本向量输入预设诊断模型之前,对带有眩晕症分类诊断的给定病历报告进行分词,利用步骤1-步骤4对分词后的所述给定病历报告进行处理,得到用于训练的合成文本向量;进而,利用所述用于训练的合成文本向量训练所述预设诊断模型;其中,所述病历文本的分类及所述眩晕症分类诊断,至少包括:耳石症、梅尼埃病、前庭神经炎、前庭性偏头痛的一种或几种分类结果;其中,所述预设诊断模型,包括:第一基础学习器、第二基础学习器和第三基础学习器及高层学习器;将m+n份给定病历报告的训练数据集对应的合成文本向量划分为两个不相交的Train集合和Test集合;把Train集合分为N份;用其中N-1份训练的所述第一基础学习器,预测剩下的那份Train集合;同时预测Test集合,上述过程做N次,生成N份train数据和N份test数据;把对N份train数据的预测值作为所述高层学习器的第一训练集,把N份test数据的预测值做平均得到所述高层学习器的第一测试集;其中,所述第二基础学习器和所述第三基础学习器的训练和上述第一基础学习器的训练过程相同,分别得到所述高层学习器的第二训练集、第二测试集、第三训练集和第三测试集,将来自Train集合的预测值对应的第一训练集、第二训练集和第三训练集进行拼接,以用于所述高层学习器的训练,将来自Test集合的预测值对应的第一测试集、第二测试集和第三测试集进行拼接,利用训练后的所述高层学习器进行分类预测。

全文数据:

权利要求:

百度查询: 东北大学 表示病历文本向量的方法、装置及问诊系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。