买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种代谢组学数据的校正方法及装置,涉及代谢组学领域。本发明开发了一种适配于大规模代谢组学研究的QC校正方法,该方法避免或减少了现有针对大样本数据开发的算法存在的欠拟合与过拟合情况,同时,保留了代谢组学数据本身的生物学差异,为大样本数据提供一种高效且准确的校正途径。
主权项:1.一种代谢组学数据的校正方法,其特征在于,其包括:针对每种目标代谢物,根据待校正的样本数量M选择校正模型,将每个待校正样本的进样顺序和批次信息输入校正模型,输出预测误差;所述校正模型的选择标准包括:当M位于[1,X3]区间内,则选择第一类模型;当M大于X3,则选择第二类模型;其中,X3为正整数700;所述第一类模型为基于质控样本的数据训练获得的校正模型,所述第一类模型的训练方法包括将质控样本的进样顺序、批次信息和目标代谢物在质控样本中的峰面积输入预先构建好的机器学习模型中进行数据拟合;所述第二类模型的训练方法包括将质控样本的进样顺序、批次信息、目标代谢物在质控样本中的峰面积,以及n个与目标代谢物结构相似的代谢物在质控样本中的峰面积输入预先构建好的机器学习模型中进行数据拟合;其中,n为正整数且为1~10;当M位于[1,X3]区间内时,所述第一类模型包括第一模型~第四模型,所述校正方法还包括基于质谱检测到的M个样本中化合物的总数N选择校正模型,所述选择标准还包括如下:当M位于[1,X1]区间内,则选择第一模型;当M大于X1,且N位于[1,X4]区间内,选择第二模型;当M位于[X1,X2]区间内,且N大于X4,选择第三模型;当M大于X2区间内,且N大于X4,选择第四模型;其中,X1~X2均为正整数,X1选自50~150,X4选自3000~6000,X2选自300~700;所述第一模型是基于支持向量机回归模型构建获得的,所述第二模型是基于集成树模型构建获得的,所述第三模型是基于集成树模型或随机森林模型构建获得;所述第四模型是基于集成树模型或随机森林模型构建获得;所述第二类模型是基于集成树模型构建获得;基于所述预测误差计算校正因子,将目标代谢物的实际代谢组学检测结果除以所述校正因子,获得所述目标代谢物校正后的结果。
全文数据:
权利要求:
百度查询: 苏州帕诺米克生物医药科技有限公司 一种代谢组学数据的校正方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。