Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大数据遗传代谢病筛查效率提升的智能分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明提供一种基于大数据智能分析的遗传代谢病筛查效率提升方法,通过大数据的智能分析,进行遗传代谢病风险评估,提高遗传代谢病筛查结果的准确度,实现遗传代谢病筛查分析的规范化和标准化,将多种影响因素降低到最小程度,有效降低了各遗传代谢病筛查的召回率,提升检出率,对降低出生缺陷,降低筛查假阳性率,提高检测结果准确率,提高出生人口素质具有重大意义。本发明克服目前临床上通过遗传代谢病专业人员基于个人经验进行结果解读,但由于缺乏标准化和规范化,不同人员对同一检测结果的解读差异较大,存在较高假阳性率及假阴性率等问题,有效利用医疗资源。

主权项:1.一种基于大数据智能分析的遗传代谢病筛查效率提升方法得到的疾病判断模型,其特征在于,通过以下步骤实现:1样本数据收集:样本数据分为两部分,一部分为正常样本数据,另一部分为确诊样本数据,数据包括样本居住地、母亲年龄、孕周、出生体重、采血间隔以及MSMS串联质谱检测的指标浓度;2数据预处理:将数据进行数据整理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签,将指标浓度值按地区进行分类,分别进行地区标准化中位数倍数MoM值处理,中位数倍数MoM值标准化计算方法如下:中位数倍数MoM=地区串联指标绝对值对应地区对应人口特征值的中位数;3特征筛选:使用方差选择、线性相关性选择、非线性相关性选择、信息增益法进行特征筛选,排除无效或冗余的特征,把特异性强,能够较好地区分正常样本和确诊样本的指标作为特征挑选出来作为模型的训练数据;4特征提取:使用AUC特征提取法、Ripper规则提取法对筛选的特征数据进行分析比较,找出在检出率接近100%且假阳性率接近0%的特征;5特征组合确定在上述AUC或者Ripper挑选的规则中提取出满足条件的特征,使用特征和与特征积以检出率为1,假阳性率最低为目标对特征进行挑选,结合特征积和特征和的结果,得到最终的疾病判断模型;其中步骤4中:a:AUC特征提取法:利用ROC曲线计算曲线下面积AUC,AUC越高,则表示该特征的特异性越好,ROC是通过遍历每个特征的值,观察检出率随着假阳性率的分布,检出率越高,假阳性率越低说明特征越好,为了量化特征的重要性,计算AUC,比较不同切值下的检出率和假阳性率,并且可以发现在检出率为1情况下,假阳性率的大小,AUC的计算方式如下,其中代表第i条样本的序号,M、N分别代表正样本的个数和负样本的个数: b:Ripper规则提取法:Ripper能很好地处理噪声数据集,分类的时候,将规则库中的规则根据添加的先后顺序一一与实例匹配,若匹配成功则实例被预测为正例,若都不匹配则为负例,分为5个阶段:第1阶段:准备阶段计算每个类别的先验概率,假设完整的数据集为D,每次对一个类别的数据建立规则并加入到规则库中:如完整数据集的类C1,C2,…Cn先验概率为p1≤p2≤…≤pn,那么首先对C1建立规则,规则建立完成后将其覆盖的数据从D中删除;第2阶段:规则生成输入数据集D,正例类别C与其先验概率p,在这个阶段中,将生成若干条规则直到无法继续,这些规则的后件都是类别C,每一条规则的生成都经历增长和剪枝两个阶段,数据集D分为独立的增长集Grow与修剪集Prune;第3阶段:规则增长使用的数据集为增长集Grow,则的增长从空规则开始,其每次在所有可能的属性与阈值之间挑选合适的组合作为前件添加到规则之中,度量的标准是信息增益,不同于其他决策树,这里的信息增益并非期望熵的减少,而是来源于信息论里对一个正例编码所需比特的减少,这里的信息增益的准确定义为:Gainantd=coverlog2rt′-log2rt,其中cover指规则添加前件antd后覆盖到的正例数量,rt′指添加前件后规则覆盖的数据中的正例比例,rt则是未添加前件的,每一次添加前件都需要对所有候选阈值计算其所带来的信息增益并选择最高的一个添加到规则中,每添加一个前件,都需要将其所覆盖的数据从增长集中删去,添加前件的循环将持续进行,直到Grow为空,或者余下的Grow中已经没有正例,或者没有更多的候选阈值,或者规则的覆盖率低于某个值;第4阶段:规则修剪修剪阶段使用修剪集Prune来检验规则的泛化能力,从最后一项被添加的前件开始往前依次删去规则的一个前件,计算其在修剪集上的准确率,算法选择准确率最高且前件尽可能少的规则,但该规则的准确率至少要比空规则高,记待修剪的规则为R=a1,a2,…a6,剪枝时度量标准是最大化p-np+n,其中p是修剪集中被规则覆盖的正例,n是被规则覆盖的负例;第5阶段:规则优化将数据集D划分为Grow和Prune,从空规则开始,利用Grow生成规则并剪枝,对于每个Prune中的每个实例,如果其被规则库中R以后的任意规则覆盖,则将其从Prune删除,剪枝时计算,将新规则覆盖的样本删除后,用剩余的样本进行剪枝,计算整个修剪集上的正确率,去除被新规则覆盖的数据后,计算剩余数据里的正确率;其中步骤5所述的特征和:将特征一个个删除,求剩下的特征的和,将这些特征和表示异常程度,以检出率为1,假阳性率最低为目标,循环的删除特征,剔除使假阳性率升高的特征,留下假阳性率最低时的特征组合,将上述留下的特征,进行随机组合,还是以这些特征和表示异常程度,最终得到检出率为1时,假阳性率最低的特征组合A;其中步骤5所述的特征积:将特征一个个删除,求剩下的特征的积,将这些特征积表示异常程度,以检出率为1,假阳性率最低为目标,循环的删除特征,剔除使假阳性率升高的特征,留下假阳性率最低时的特征组合,将上述留下的特征,进行随机组合,还是以这些特征积表示异常程度,最终得到检出率为1时,假阳性率最低的特征组合B;最后结合这两种构造的特征进行疾病判断值C,将这两种特征进行乘积处理后作为疾病的风险,公式为:C=A*B。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于大数据遗传代谢病筛查效率提升的智能分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。