买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京大学
摘要:本发明实施例提供了一种转录组序列分类方法、装置、电子设备及计算机可读存储介质,本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒主要的人类病毒,以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
主权项:1.一种转录组序列分类方法,其特征在于,所述方法包括:获取宏转录组中的待分类转录组序列;将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对;在比对成功的情况下,通过已知数据库确定所述待分类转录组序列所属类别;在比对失败的情况下,利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测;其中,所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列;在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前,所述方法还包括:提取所述待分类转录组序列的六个可能的读码框的相位序列;对六个相位序列分别进行分析,得到所述六个相位序列各自对应的六连体序列串;通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列;将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列,作为所述待分类转录组序列的编码序列;根据所述编码序列,确定所述待分类转录组序列的密码子序列和氨基酸序列;通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分,以及最大编码可能性得分对应的连续子序列,包括:根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率,和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值,确定该单个六连体序列在单个微生物类别中的编码可能性得分;对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算,确定该相位序列在对应微生物类别中的最大编码可能性得分,以及所述最大编码可能性得分对应的连续子序列。
全文数据:
权利要求:
百度查询: 北京大学 转录组序列分类方法、装置、电子设备及可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。