买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于集成学习与改变决策阈值的化验数据校验方法,属于大数据领域,本发明将聚类算法、集成学习的思想和改变决策阈值几个方法结合在一起,得到一个新的强分类器,基于已有的化验数据进行学习得到分类模型,对新的化验数据进行预分类,增加了其准确度,解决了有效的对化验数据进行分类准确度验证的技术问题,本发明通过结合四种不同的单分类器,具有更强的分类能力,对于疾病数据集中数据不均衡问题,在最终决策阶段,通过改变决策阈值,提高分类的准确度,通过多指标从多角度评价分类结果,更好的了解分类结果的准确性。
主权项:1.一种基于集成学习与改变决策阈值的化验数据校验方法,其特征在于:包括如下步骤:步骤1:建立数个远程终端和中心服务器,所有远程终端均通过互联网与中心服务器通信;在远程终端中建立数据采集模块、数据清洗模块和分类模块;在中心服务器中建立对比数据集和多指标评价模块;步骤2:远程终端通过数据采集模块获取体液化验数据,建立体液数据集,并在数据清洗模块中对体液数据集中的数据进行清洗,包括如下步骤:步骤S1:对体液化验数据中的缺失值和异常值进行处理,剔除异常数据,得到预处理数据集;步骤S2:通过均值方差归一化将预处理数据集中的数据转换为同一水平下的数据,得到预处理后数据集;步骤S3:将预处理后数据集中的70%的数据划分为训练集,再将其中30%的数据划分为测试集;步骤3:分类模块选择KNN、决策树、支持向量机和逻辑回归算法四种不同的单分类器作为基分类器,组合得到一个集成分类器;步骤4:远程终端读取中心服务中的对比数据集;步骤5:分类模块计算基分类器权重,包括如下步骤:步骤S4:对训练集中的样本通过FCM模糊聚类算法进行聚类划分为两类样本;步骤S5:基分类器分别在这两类样本上进行分类,通过与对比数据集中的实际标签进行对比,得到每个基分类器的分类错误率e;步骤S6:根据公式计算得到每个基分类器的权重w;步骤6:分类模块计算测试集中每个测试样本到每个聚类中心的欧氏距离,将欧氏距离的倒数作为每个测试样本与步骤S4中得到的所述两类样本的相似度S,将相似度S作为测试样本的相似度值;步骤7:分类模块通过以下公式计算测试样本i的专属权重WiWi=相似度S×权重w;对每一个测试样本进行计算,得到每一个测试样本相对于每一个基分类器的专属权重Wi;步骤8:测试样本在每个基分类器上都会得到一个分类概率p,将测试样本的专属权重Wi和分类概率p相乘,得到将测试样本分类为步骤S4中得到的所述两类样本的最终概率P1和P0;设定所述两类样本分别为1类样本和0类样本,其包含的样本数分别为N1和N0,根据样本数N1和N0,改变决策阈值:当满足P1÷P0N1÷N0时,将测试样本预测为1类样本;否则为0类样本;步骤9:远程终端将步骤8得到的分类的结果和体液化验数据打包发送给中心服务器,中心服务器存储分类的结果,并通过多指标评价模块,根据准确率ACC、精准率Precision、召回率Recall、F1-score、AUC、灵敏度TPR和特异度TNR多个不同的指标,从多角度评价分类的结果的准确性。
全文数据:
权利要求:
百度查询: 郑州大学第一附属医院 一种基于集成学习与改变决策阈值的化验数据校验方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。