首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

使用机器学习对核酸序列进行分类的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京诺赛基因组研究中心有限公司

摘要:本发明提供一种使用机器学习对核酸序列进行分类的方法,所述方法包括收集带有准确分类标签的核酸序列构建核酸序列数据库,将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本;提取核酸Kmer,形成核酸序列的Kmer字典;使用Kmer字典将短核酸序列均衡样本转化成数字信号;使用数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器;使用Kmer字典将待检测核酸序列转化成数字信号;然后将数字信号输入到训练好的神经网络分类器中,对待检测核酸序列进行分类。通过本发明的方法,能够准确快速地将待检测核酸序列与构建数据库中核酸序列的标签进行对应分类,并展示每个标签的可靠性分值,为后续研究提供参考,增加了模型的使用价值。

主权项:1.使用机器学习对核酸序列进行分类的方法,其特征在于,所述方法包括以下步骤:S0:收集带有准确分类标签的核酸序列构建核酸序列数据库;S1:将核酸序列数据库中所有核酸序列分割成等长度的短序列,从而形成短核酸序列均衡样本,该短序列的长度为4bp~核酸序列数据库中最短序列的长度,短核酸序列均衡样本适合于机器学习,短核酸序列均衡样本是指最多分类标签数目的短核酸序列数量Nmost与最少分类标签数目的短核酸序列数量Nleast的比值不超过5时的短核酸序列样本;S2:根据所述核酸序列数据库中的核酸序列,提取核酸Kmer,核酸Kmer长度为4≤Kmer长度≤所述短序列的长度,形成核酸序列的Kmer字典;S3:使用S2中的Kmer字典将S1中的短核酸序列均衡样本转化成数字信号;S4:使用S3中的数字信号训练一个能对带有分类标签的核酸序列进行多分类的神经网络分类器,该神经网络分类器用于识别和判断待检测核酸序列在核酸数据库中的核酸分类;S5:使用S2中的Kmer字典将待检测核酸序列转化成数字信号;S6:将S5中的数字信号输入到S4中训练好的神经网络分类器中,对待检测核酸序列进行分类;所述S1包括以下步骤:S1-1:判断核酸序列数据库中所有核酸序列是否均衡;S1-2-1:如果均衡,则使用相同分割步长将核酸序列数据库中所有核酸序列分割成等长度的短序列,所述相同分割步长是分割时后移长度,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;S1-2-2:如果不均衡,则对核酸序列数据库中每类标签核酸序列使用各自分割步长将每类标签核酸序列分割成等长度的短序列,每类标签核酸序列分割步长为分割各类标签核酸序列时后移长度,该后移长度不大于所述短序列的长度,分割核酸序列数据库中所有核酸序列获得短序列样本;S1-3:判断S1-2-1或者S1-2-2获得短核酸序列的样本是否为均衡并适合于机器学习的样本,如果是,则停止S1-2-1或者S1-2-2,如果不是,则重复S1-2-1或者S1-2-2,直到获得均衡并适合于机器学习的短核酸序列的样本;所述S4包括以下步骤:S4-1:搭建一个含有输入层、Embedding层、最大池化层、平均池化层、中间合并层、全连接层一、全连接层二、输出层的模型;S4-2:把S3得到的数字信号输入到S4-1搭建的模型中进行训练,直到该神经网络成为对输入核酸序列进行多分类的神经网络分类器,分类标签为S0核酸数据库中的分类标签;S4-3:把S4-2中训练好的模型保存,用于后续对待检测核酸序列进行分析。

全文数据:

权利要求:

百度查询: 北京诺赛基因组研究中心有限公司 使用机器学习对核酸序列进行分类的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。