买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明请求保护一种基于双重测序的超低频DNA突变识别方法和装置,该方法和装置包括:1对原始测序数据质量进行评估,降低数据噪声,为后续分析提供有效数据;2根据barcode对读段进行分组形成readfamily,提取readfamily中每个读段上的barcode进行错误校正,校正后的barcode重新返回读段中;4将readfamily进行组内多序列比对,并根据每个位置上主要碱基的频率计算当前位置的共识质量得分,生成单链一致性序列,以排除文库制备或者PCR过程中引入的突变;5根据单链一致性序列构建双链一致性序列,进一步排除序列中的非对称突变位点;本发明能有效提高数据利用率,有效抑制测序错误,并提高低频甚至超低频突变检测的准确率。
主权项:1.一种基于双重测序的超低频DNA突变识别方法,其特征在于,包括以下步骤:1对原始双重测序数据进行质量控制,去除低质量和被污染的序列,得到清洗后的测序数据;2UMI聚类,根据barcode标签对清洗后的测序数据进行分组,并提取barcode,建立barcode索引,并将barcode与索引进行比对,比对后的结果用networkx可视化,根据编辑距离对barcode进行校正,校正后的barcode放回到序列中;3多序列比对,将步骤2中校正后的readfamily组内的序列进行多序列比对,确定序列的共同区段,并根据比对结果获取每个位置上碱基的排列情况,分别建立正义链和反义链的readfamily,并利用读段互补的特性筛选readfamily;4生成单链一致性序列SSCS,对正义链而言,如果步骤3中familysize大于等于3条,则保留该组readfamily,否则,予以丢弃,对于保留下来的readfamily从每次读取中提取“核心”序列区域,统计序列每个位置上ATCG四种碱基出现的频率,把频率最高的作为主要碱基,并根据所述主要碱基的频率计算当前位置的共识质量得分,并生成单链一致性序列SSCS,对反义链而言,同样为一致性序列形成单链一致序列SSCS;所述“核心”序列区域指读段中心位置长度为30±5bp的碱基片段;所述共识质量得分的计算公式: 其中,f是当前位点的最大碱基频率;5生成双链一致性序列DCS,将步骤4中生成的单链一致性序列SSCS序列与其互补的SSCS序列生成DCS序列;6突变识别,将步骤5中生成的DCS序列进行过滤,然后与参考基因组进行比对,识别序列片段上的单核苷酸多态性、DNA插入与缺失错误和测序错误。
全文数据:
权利要求:
百度查询: 重庆邮电大学 一种基于双重测序的超低频DNA突变识别方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。