买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海交通大学医学院附属第九人民医院
摘要:本发明公开了一种基于极端随机树的口腔鳞癌代谢物特征值筛选方法。本发明的另一个技术方案是提供了一种智能诊断系统。本发明所公开的技术方案通过收集OSCC患者及健康对照者样本的血浆代谢组学数据集,建立一种极端随机树ExtraTrees,ET方法筛选OSCC代谢组学比率及代谢物相关的诊断标志物,同时构建模型用于OSCC的智能筛查。本发明创新性应用挥发性代谢组学数据,结合先进的机器学习算法,精确鉴别与OSCC相关的血浆代谢标志物,促进OSCC诊断在精准医学领域的研究进展。
主权项:1.一种基于极端随机树的口腔鳞癌代谢物特征值筛选方法,其特征在于,包括以下步骤:步骤1、获取一定数量的OSCC患者和健康人群的待筛选的n个血浆代谢标志物的组合数据,不同血浆代谢标志物定义为不同的特征;步骤2、对步骤1所获得的数据集进行预处理,将预处理后的数据集分为训练集和测试集;步骤3、利用训练集构建用于预测OSCC诊断结果的模型M,在模型M的训练过程中使用极端随机树算法,通过多次随机选择特征和样本构建多个决策树,并通过综合这些决策树的结果来提高分类性能;步骤4、使用5折交叉验证法对步骤3所构建的模型M训练J次,对每个特征J次训练的特征重要性求和,则得到n个特征的特征重要性,其中,采用以下步骤计算获得第l个特征的特征重要性Il,l=1,2,…,n:步骤401、在每次训练时,对所有决策树进行汇总,计算第l个特征在所有决策树中导致的不纯度减少量的总和后进行标准化处理,获得重要性值,其中,在每棵决策树的构建过程中,每次分裂会考虑不同的特征,当使用第l个特征进行分裂时,计算当前一次分裂导致的不纯度的减少量;步骤402、完成J次训练后,对步骤402获得的第l个特征的所有重要性值进行求和后,得到第l个特征的特征重要性Il;步骤5、对n个特征按照特征重要性进行排序,获得特征数据集Xsorted:Xsorted=X1,X2,…,Xn}式中,Xn为特征数据集Xsorted中的排在第n位的特征;步骤6、基于特征数据集Xsorted获得准确率列表A,包括以下步骤:步骤601、迭代创建新的特征数据集,第k轮迭代所创建的特征数据集表示为X,k=0,1,…,n-1,则有:X=X1,X2,…,Xn-k}步骤602、在第k轮迭代时,以特征数据集X为输入,对模型M进行训练,并获得第k轮迭代时的模型准确率acc:acc=EvaluateM,Xk,y式中,Evaluate为模型性能评估函数,y为样本标签;步骤603、更新准确率列表A,A=A∪{acc};步骤604、完成n轮迭代后,获得最终的准确率列表A;步骤7、从准确率列表A中找到数值变化的拐点k*,拐点k*为特征数据集Xsorted中重要特征和非重要特征的分界点,则最终获得的重要特征表示为
全文数据:
权利要求:
百度查询: 上海交通大学医学院附属第九人民医院 一种基于极端随机树的口腔鳞癌代谢物特征值筛选方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。