买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学
摘要:一种基于细胞异质性基因与通路功能的内分泌疾病细胞识别方法,它涉及一种内分泌疾病细胞识别方法。本发明为了解决现有细胞功能识别方法存在局限性的问题。本发明的步骤包括步骤1、提取细胞关联基因特征;步骤2、扩增细胞关联基因;步骤3、预测细胞异质性基因;步骤4、识别内分泌疾病细胞功能。本发明属于内分泌疾病细胞功能识别技术领域。
主权项:1.一种基于细胞异质性基因与通路功能的内分泌疾病细胞识别方法,其特征在于:所述一种基于细胞异质性基因与通路功能的内分泌疾病细胞识别方法的步骤包括:步骤1、提取细胞关联基因特征;提取细胞关联基因特征的步骤包括:步骤101、根据单细胞测序数据获取细胞显著差异表达基因,并根据基因的位置信息,将其与疾病突变位点数据、组织特异性差异表达数据进行比对,每个基因选取最显著关联的5个突变位点的显著性p值作为细胞关联基因的疾病突变位点信息;步骤102、将匹配到的SNP的p值和log2FC值作为基因在该组织中的差异表达信息,eQTL数据来源于胰腺、脂肪、血液和肌肉组织;步骤103、将基因的关联KEGG通路信息表示为一个343维的二元向量,每一维度表示该基因与通路的关联关系;步骤104、通过分析细胞关联基因的亚定位信息,选取前10个细胞亚结构表示基因的亚细胞定位信息,并利用生成对抗网络生成细胞功能相关基因特征;步骤2、扩增细胞关联基因;采用基于问题转换方法的RAkEL框架构建集成多目标分类模型;RAkEL通过将样本的标签组合视为一个新的单标签,从而将多目标分类问题转化为单标签分类问题,具体步骤包括:步骤201、分析基因标签组合的分布,基于标签组合的不平衡比例IR选取小样本基因,IR的定义如下式所示: 公式1中,L表示标签集,L1表示第1个标签,|L|表示标签个数,N表示基因个数,Yi表示第i个基因对应的标签集;所有标签的IR的平均值meanIR可以表示数据集的不平衡程度;通常认为IRl>10的标签即可视为小样本标签,并将包含这种标签的基因称为小样本基因;步骤202、针对小样本基因合成基因样本,根据每一个小样本基因选取其k近邻节点集合,利用欧氏距离衡量小样本基因特征向量间的距离;为了生成基因标签,对小样本基因及其邻居节点中每个标签出现的次数进行了统计,并设定阈值合成新标签,合成基因的标签表示为:LabelsynthGene={L1,L2,...,LL}2,公式2中,当邻居节点中第i个标签出现的次数大于所设阈值时,合成基因的标签Li记为1,否则记为0;步骤203、为了生成基因特征,随机选取一个邻居节点,作为生成合成样本特征的参考邻居基因,利用插值法合成基因特征Fsyn,将其表示为:Fsyn=Fseed+r×Fseed-Fref3,公式3中,r是0,1之间的随机数,小样本基因的特征记为Fseed,参考邻居基因节点的特征表示Fref;步骤204、通过对比不同小样本基因的扩增倍数下,基因标签及标签组合分布的meanIR值和相似程度,选取小样本基因的扩增个数,既提高基因分布的均衡性,也保留了标签分布的主要信息;步骤3、预测细胞异质性基因;预测细胞异质性基因的步骤包括:步骤301、将基因样本对应的标签分为m组,每一组具有k个标签的标签子集;步骤302、构造m个二元基分类器,每个分类器对一组标签子集进行二元分类,每个分类器都可以对其标签进行一次预测:如果第i个分类器Pi对应的标签子集为Li,其中每个标签li都能得到一个得分,在对所有分类器训练完毕后,通过取平均值计算每个标签li的最终得分若大于阈值,则认为该基因在第j个细胞类型Cellj中具有显著的功能表现,相反,则认为该基因在细胞类型中无明显功能体现;步骤303、将测试集的数据分别在训练好的分类器上进行测试,每个样本在每个分类器上都会得到一个结果,最后通过投票方式得到该样本的最终标签,对内分泌疾病基因进行细胞分类,RAkEL的参数为k取5,m取14;步骤4、识别内分泌疾病细胞功能;获取细胞关联基因集后,将其与原数据集中的细胞基因整合为新的细胞关联基因集,并对新的基因集进行基于KEGG通路的富集分析,获取每种细胞类型相关的通路合集;对比新的细胞基因集与原细胞基因集所得到的通路富集分析结果,通过分析两个通路集合的差集,表示为: 其中和分别表示第i种细胞类型中识别到的基因集与原始基因集经过富集分析后所得到通路集合可以识别到新的细胞关联通路,由于细胞的功能最终体现在细胞所涉及的生物通路上,通过分析细胞异质性基因涉及的内分泌疾病通路功能进行细胞功能识别,通路分析方法利用R语言中的enrichR包实现。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 一种基于细胞异质性基因与通路功能的内分泌疾病细胞识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。