买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学
摘要:一种面向纳米孔测序数据的单核苷酸变异检测方法,本发明涉及单核苷酸变异快速检测方法。本发明的目的是为了解决基于深度学习的算法通常需要大量标记数据来模型训练,在设计时对泛化性的影响考虑有欠缺,使其不能够很好地适应不同的物种和测序数据,以及通常需要大量计算资源和时间进行训练,导致单核苷酸变异检测时间长、检测准确率低的问题。过程为:一、得到排序后的BAM文件;二、将候选基因座中的变异分为两类,即高质量和低质量变异;三、得到一致性序列;四、通过hapGT和preGT共同确定真实变异的最终基因型;五、将二得到的高质量变异与四已确定基因型的真实变异合并作为最终变异集。本发明用于单核苷酸变异检测领域。
主权项:1.一种面向纳米孔测序数据的单核苷酸变异检测方法,其特征在于:所述方法具体过程为:步骤一、使用比对工具Mininap2对测序数据和参考序列hg38进行比对,最终得到排序后的BAM文件;步骤二、利用测序数据堆叠技术识别测序数据与参考序列存在的差异作为等位基因,计算每个等位基因的基因频率;基于基因频率获取候选基因座,将候选基因座中的变异分为两类,即高质量和低质量变异;步骤三、通过二项式模型对高质量变异和低质量变异进行基因型分配preGT;筛选出质量分数大于15的高质量杂合变异;使用WhatsHap工具将所有高质量杂合变异作为输入对测序数据进行分型标记;覆盖低质量变异的测序数据根据不同的标记{0、1、2}分为三个分型集;标记为0的分型集代表未分型;标记为1的分型集代表测序数据分型到单倍体1上;标记为2的分型集代表测序数据分型到单倍体2上;若标记为1的分型集中的测序片段计数超过用户定义的阈值,则标记为1的分型集被视为有效集合,有效集合内的测序数据用于生成代表单倍体1的一致性序列并识别低质量基因座中的变异;若标记为2的分型集中的测序片段计数超过用户定义的阈值,则标记为2的分型集被视为有效集合,有效集合内的测序数据用于生成代表单倍体2的一致性序列并识别低质量基因座中的变异;标记为0的分型集被视为无效集合;若标记为1的分型集、标记为2的分型集、标记为0的分型集都为无效集合,则无效集合中所有测序片段于生成代表潜在单倍体的两条一致性序列;步骤四、使用KSW2将生成的一致性序列与活动区域的参考序列比对,并从重新比对的CIGAR信息中识别等位基因;根据识别的等位基因判定步骤二得到的低质量变异是否是真实变异,若步骤四中识别的等位基因与步骤二中的低质量变异一致,则认为低质量变异是真实变异;若步骤四中识别的等位基因与步骤二中的低质量变异不一致,则认为低质量变异不是真实变异,将对应的识别的等位基因删除;根据剩余的识别等位基因在不同单倍体上出现的次数确定真实变异的基因型hapGT;通过hapGT和preGT共同确定步骤四判定的真实变异的最终基因型;步骤五、将步骤二得到的高质量变异与步骤四已确定基因型的真实变异合并作为最终变异集,以VCF文件形式输出。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 一种面向纳米孔测序数据的单核苷酸变异检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。