买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出了一种基于症状特征的疾病分类的系统、设备及介质,通过疾病症状收集单元收集各种疾病名称,以及多个对应的症状描述性文本,为疾病筛查收集足够多的样本数据;通过疾病症状扩展单元对疾病名称及其对应的症状词库进行动态扩展,保证系统的不断升级;疾病症状筛查模型通过症状的文本性描述实现对疾病的筛查,疾病症状筛查单元根据疾病症状筛查模型的筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。本发明通过对文本性描述进行分词提取关键词的处理,并构建疾病症状筛查模型,实现了通过症状的文字性描述就可以得知对应疾病的技术效果。
主权项:1.一种基于症状特征的疾病分类的系统,其特征在于,包括:疾病症状收集单元:用于收集各种疾病名称,以及多个对应的症状描述性文本,将所述疾病名称对应的所有症状描述性文本以疾病名称的症状词库方式存入疾病症状数据库;疾病症状扩展单元:对于已存在与疾病症状数据库中的疾病名称,在其对应的症状词库中添加关键词以扩展症状词库;对于未存在于疾病症状数据库中的疾病名称,采用新建分类并利用互联网爬虫搜索的方式创建其对应的症状词库,存入疾病症状数据库;疾病症状筛查模型:通过SimHash算法建立疾病症状筛查模型,用于对待识别症状进行对应疾病的筛查;疾病症状筛查单元:通过疾病症状筛查模型对待识别症状进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案;所述疾病症状收集单元具体包括:收集子单元:收集各种疾病名称,以及对应的症状描述性文本;处理子单元:从所述描述性文本中提取关键词,并对关键词进行词性标注和术语提取,将从所述症状描述性文本中提取的关键词存入疾病名称的症状词库,并建立疾病名称与症状词库的映射关系,存入疾病症状数据库;所述处理子单元中,从所述描述性文本中提取关键词具体包括:对所述多个描述性文本进行自动分词,计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序,将排序高于预设第一阈值的多个分词作为该描述性文本的关键词,每个描述性文本的关键词作为一个关键词集合,一个疾病名称的症状词库中存在多个关键词集合;所述计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序具体包括:计算每个分词在描述性文本中的词频TF,所述词频TF=某个分词在文章中出现的总次数文章总分词数;计算每个分词的权重IDF,所述权重IDF=log(该疾病名称的症状描述性文本总数(包含该分词的文档数+1));将每个分词的词频TF和权重IDF相乘,得到多个分词的TF-IDF值,即TF-IDF=TF*IDF,根据TF-IDF值由高到低的规则,将多个分词按顺序排列,选取排序高于预设第一阈值的多个分词作为该描述性文本的关键词;所述疾病症状扩展单元中,具体包括:被动扩展子单元:对于已存在于疾病症状数据库中的疾病名称,通过系统管理人员在症状词库中添加关键词的方式扩展症状词库;主动扩展子单元:对于未存在于疾病症状数据库中的疾病名称,在数据库中新建该疾病名称以及对应的症状词库,所述症状词库采用互联网爬虫搜索对应的症状描述性文本,并从中提取关键词,创建其对应的症状词库,存入疾病症状数据库;所述疾病症状筛查单元具体包括:用户输入子单元:用于为被检者提供症状的输入界面,获取被检者在输入界面输入的症状,并进行分词处理,获取被检者症状的多个关键词,作为待识别症状;症状筛查子单元:用于获取待识别症状,并将待识别症状输入到疾病症状筛查模型,获取筛查结果,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案;所述疾病症状筛查模型具体包括:将待识别症状中的每个关键词作为待识别症状的最小单元,通过SimHash算法计算疾病症状数据库中每一症状词库的指纹,生成一SimHash表;选取一个待识别症状,计算该待识别症状所属的聚类簇,并将其记录到该SimHash表中,根据该待识别症状的指纹查找SimHash表,得到与该待识别症状相似的症状词库集合S0;采用公式 ;计算所述症状词库集合S0中的每一症状词库与所述待识别症状的相似度值,其中simA,B为相似度值,|A∩B|表示待识别症状A和症状词库B中相同关键词的个数,|A|表示待识别症状A中关键词的总个数,|B|表示症状词库B中关键词的总个数,将与所述待识别症状的相似度值大于预设相似度的症状词库作为对应词库集合S1,并将所述对应词库集合S1中所有症状词库对应的疾病名称作为筛查结果;所述根据该待识别症状的指纹查找SimHash表,得到与该待识别症状相似的症状词库集合S0具体包括:利用SimHash计算当前待识别症状指纹与疾病症状数据库中每一症状词库指纹的海明距离,将与待识别症状的海明距离小于预设距离的症状词库作为与该待识别症状相似的症状词库集合S0。
全文数据:
权利要求:
百度查询: 吾征智能技术(北京)有限公司 一种基于症状特征的疾病分类的系统、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。