买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东北林业大学
摘要:基于软件识别宏基因组序列中微生物种类与序列的方法,具体涉及一种利用软件识别蜱虫的宏基因组数据中微生物种类与序列的方法,本发明为解决宏基因组种类注释软件鉴定结果不够精确,且输出的结果文件格式不能直观的表示输出结果的问题,本发明利用多个软件对测序结果进行特征信息提取或处理,在处理时将测序结果文件进行了多次的格式转换,使得最终得到的微生物的种类文件直观的表示了测序结果中微生物的种类以及这些微生物所属的分类系统;使微生物的序列文件可直观的表示输出结果,且文件大小更小,数据可信度更高。属于基因工程领域。
主权项:1.基于软件识别宏基因组序列中微生物种类与序列的方法,其特征在于:它包括以下步骤:S1、获取宿主的测序结果和宿主参考基因组,利用bwa软件对获取的宿主参考基因组建立bwa索引文件,并将bwa索引文件与宿主的测序结果进行对比,生成sam格式文件;S2、利用samtools软件将S1中生成的sam格式文件转换为bam格式文件,并对bam格式文件进行筛选排序,生成排序后的bam格式文件;S3、利用bedtools软件将S2中生成的排序后的bam格式文件转换为fastq格式文件,并压缩和组装,生成组装文件,得到组装文件的序列;S4、利用blastn软件将S3中生成的组装文件的序列与nt数据库进行对比,得到对比结果,筛选对比结果中满足要求长度的对比长度,生成文件P;S5、对S4中生成的文件P进行信息提取,生成文件u和文件E,得到测序结果中所有微生物的种类,具体为:S51、获取文件P的第二列数据,去除第二列数据accession号两侧的字符,再进行排序、去除重复项,生成文件a;S52、利用taxonkit软件将文件a与taxonomy分类数据库进行对比,生成文件r;S53、查找文件r中不包含Eukaryota字符的行,并去除界门纲目科属种前面的字符,再进行排序、去除重复项,生成文件u,得到测序结果中所有微生物的种类;查找文件r中包含Eukaryota字符的行,提取所述行对应的accession号,生成文件E;S6、将S4中生成的文件P与S5中生成的文件E进行匹配,生成文件s1,提取文件s1中的第一列序列ID生成序列ID列表m;S7、利用seqkit软件提取S3中生成的组装文件内与序列ID列表m中序列一致的序列,生成微生物的序列m1,得到测序结果中所有微生物的序列。
全文数据:
权利要求:
百度查询: 东北林业大学 基于软件识别宏基因组序列中微生物种类与序列的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。