买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,属于生物医学技术领域。包括以下步骤:从TCGA上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;采用一致性聚类方法结合PAC和临床相关数据决策出最佳的亚型数,用于区分不同亚型;采用改进的梯度提升深度特征选择算法进行特征选择;采用深度神经网络进行分类。本发明采用无监督聚类方法,无需事先指定聚类的簇,并提出了选用PAC和临床数据来辅助决策最优亚型数,有效提高了预后预测准确率。
主权项:1.一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,包括以下步骤:1从TCGA上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;2采用一致性聚类方法结合PAC和临床相关数据决策出最佳的亚型数,用于区分不同亚型;3采用改进的梯度提升深度特征选择算法进行特征选择;4对步骤3特征选择后的特征子集,采用深度神经网络进行分类;步骤1中,数据预处理是指移除转录组学数据集中的0方差特征,并进行差异分析,具体的:从TCGA上下载的数据为两种形式:原始数据rawcounts和标准化后的数据FPKM,采用edgeR包对原始数据做差异分析,通过取均值的方法保留rawcounts矩阵中的一个基因名,方差公式为:方差公式:其中,S2为方差,n为样本总数,表示这组数据的平均数;阈值选为0,选择出方差大于0的基因特征;采用edgeR包对方差过滤后的数据集作差异分析,在输入到模型前选择出部分特征,选择出pvalue0.05和log2Foldchange1.5的数据;其中,pvalue表示显著性差异的统计参数,Foldchange表示样本质检表达量的差异倍数;步骤2中的一致性聚类方法采用k-means聚类方法,选择的maxk为5,即设置一个最大值不断去迭代尝试,迭代次数为1000,在每次迭代中选择80%的样本子集,在该样本子集上运行k-means聚类方法,得到不同k值对应的累计密度函数CDF和一致性矩阵热图;选择累计密度函数CDF下降坡度更小的曲线,以及一致性矩阵热图中分布最好的矩阵所对应的k值作为优选k值;模糊聚类对的比例PAC是一种用于确定最佳聚类数的指标,通过对多次聚类结果的一致性评估,来确定最佳的聚类数k,具体的:通过多次从FPKM数据集中随机抽取样本和基因特征,并利用所选的k-means聚类方法对其进行聚类,得到多个聚类结果;然后,通过计算多个聚类结果之间的共识矩阵,来度量它们之间的一致性程度;最后,通过计算在一定阈值范围内的共识矩阵上的面积大小,来确定最佳的聚类数k;临床相关数据包括胃癌患者生存曲线,生存曲线差异大,则验证了亚型数的无监督聚类是合理的;步骤3中,梯度提升,也称为梯度增强,改进的梯度提升算法是基学习器的集成,基学习器之间存在先后顺序,将负梯度作为上一轮基学习器犯错的衡量指标,其中负梯度也被称为伪残差,每一轮基学习器在训练过程中更加关注上一轮学习错误的样本,在训练过后更新样本权重,在此基础上再训练下一个基学习器,最后将所有的基学习器加权组合;改进的梯度提升算法的过程为:输入为训练集为差异分析后的转录组学FPKM数据,x表示样本,y表示亚型标签,n表示样本总数,即胃癌患者总数;可微分损失函数Ly,Fx,Fx是预测值,迭代次数M,具体过程如下:用常数值初始化模型 γ为常量初始化模型的预测值;对于m从1到M:计算负梯度使用损失函数的负梯度在当前模型Fm-1x上的值近似代替残差; 将基学习器hmx拟合到伪残差,hmx表示第m个基学习器,即使用训练集对其进行训练;通过以下优化问题计算rm: 更新模型:下一轮学习器学习到了上一轮学习器的负梯度,从而修正Fmx=Fm-1x+γmhmx输出FMx,即所有基学习器加权组合后的模型,γm表示第m个基学习器的乘子;改进的梯度提升选用更高级的梯度提升树XGBoost模型,并采用早停机制,避免过拟合并加快处理速度;选用Optuna框架配合10折交叉验证,对树的最大深度、多少棵树、学习率、树方法超参数调优,从而获取对预后分型起作用的重要基因,得到更准确的重要特征排名。
全文数据:
权利要求:
百度查询: 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。