买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州大学
摘要:本发明公开了一种基于miRNAs表达谱和自然语言模型的癌症分类方法,包括如下步骤:对癌症miRNA表达数据集样本的预处理;根据miRNA的表达数据,构建邻居miRNA频数数据表;遍历每一个miRNA表达样本,基于统计语言模型方法分别计算每个样本在癌症组和正常组中的统计概率;根据待测样本在癌症组和正常组中的统计概率特征,构建分类器预测待测样本所属类别。本发明基于自然语言模型的癌症分类方法,具有高效预测且计算简单的优点。本方法着重考虑样本内miRNA分子表达值的排名先后顺序,无需关注miRNA分子在样本间的表达差异。本发明不受基因组测序批次效应的影响,对于癌症样本的分类具有广泛的适用性。
主权项:1.一种基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,包括如下步骤:S1,获取癌症样本和正常样本的miRNAs表达谱数据;S2,去除低表达量的miRNAs表达谱数据,将剩余的miRNAs表达谱数据分成癌症样本集和正常样本集;S3,分别构建癌症样本集和正常样本集的miRNA邻居频数矩阵;S4,对于待测样本,基于统计语言模型分别计算其在癌症样本集和正常样本集中的统计概率;S5,将待测样本在癌症样本集和正常样本集中的统计概率值,以及概率值的差值共同作为癌症分类器的分类特征,构建癌症分类器;S6,将待测样本输入到癌症分类器中进行分类,获得分类结果;所述S3包括:根据miRNAs表达值从小到大对癌症样本集中的miRNAs表达谱数据进行排序,从而获得邻居miRNAs大小关系信息;将“相等”和“小于”关系的邻居miRNAs分别统计到两个大小相同的矩阵中,矩阵大小均是m×m,表示m行m列的矩阵;m表示miRNAs的数量,n表示样本的个数;根据miRNAs表达值从小到大对正常样本集中的miRNAs表达谱数据进行排序,从而获得邻居miRNAs大小关系信息;将“相等”和“小于”关系的邻居miRNAs分别统计到两个大小相同的矩阵中,矩阵大小均是m×m,表示m行m列的矩阵;所述S4包括:根据miRNAs表达值从小到大对待测样本中的miRNAs表达谱数据进行排序,构成自然语言模型中的长语句;将长语句放入到癌症样本集中计算得到统计概率值P1;将长语句放入到正常样本集中计算得到统计概率值P2。
全文数据:
权利要求:
百度查询: 广州大学 一种基于miRNAs表达谱和自然语言模型的癌症分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。