买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:墨卓生物科技(浙江)有限公司
摘要:本说明书实施例公开了一种fastq文件的测序数据拆分方法。本说明书实施例的方法包括:接收并解析fastq文件,获得包含依次排序的barcode1序列、W1序列、barcode2序列、UMI序列、PolyT序列TSO序列的read1数据;依次从read1数据中定位W1序列、barcode2序列、UMI序列、PolyT序列TSO序列在read1数据中的位置信息和序列结构;获取read1数据的前10bp序列为barcode1序列的节选序列,进行白名单匹配;将barcode2序列与白名单匹配,当上述两个序列均匹配成功时,该read1数据为有效read1数据。
主权项:1.一种fastq文件的测序数据拆分方法,其特征在于,包括:接收并解析fastq文件,获得包含依次排序的barcode1序列、W1序列、barcode2序列和UMI序列的read1数据;根据W1序列出现的位置范围,从read1数据中定位到W1序列在read1数据中的位置信息和序列结构;基于W1序列在read1数据中的位置信息、barcode2序列的基因长度、UMI序列的基因长度、PolyT序列的基因长度TSO序列的基因长度,依次确定barcode2序列、UMI序列、PolyT序列TSO序列在read1数据中的位置信息和序列结构;获取read1数据中前10bp的序列,并将其作为barcode1序列的节选序列;在节选序列后拼接与该节选序列相同的序列,形成barcode1序列的第一匹配序列;利用滑窗算法从第一匹配序列中提取一定基因长度的第一滑窗序列,将第一滑窗序列与第一barcode白名单进行匹配;在barcode2序列后拼接与该序列相同的序列,形成barcode2序列的第二匹配序列;利用滑窗算法从第二匹配序列中提取一定基因长度的第二滑窗序列,将第二滑窗序列与第二barcode名单进行匹配;当第一滑窗序列与第一barcode白名单匹配成功,且第二滑窗序列与第二barcode白名单匹配成功时,将read1数据确定为有效read1数据,否则,继续获取新的滑窗序列,进行barcode白名单匹配,若所有滑窗序列均与barcode白名单不匹配,将read1数据确定为无效read1数据;其中,所述第一barcode白名单和所述第二barcode白名单均包括若干拼接序列,每个拼接序列在原始白名单序列后拼接相同序列形成。
全文数据:
权利要求:
百度查询: 墨卓生物科技(浙江)有限公司 一种fastq文件的测序数据拆分方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。