首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于机器学习的生物信息学数据处理方法、系统及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波甬恒瑶瑶智能科技有限公司

摘要:本发明提供基于机器学习的生物信息学数据处理方法、系统及介质,涉及数据处理技术领域,包括:创建样品数据库和已知数据库;对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;对正常数据集进行特征提取,得到正常特征集;对缺失数据集进行预补全,得到估计值数据集;训练随机森林模型对正常特征集进行分类;基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据;本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题。

主权项:1.基于机器学习的生物信息学数据处理方法,其特征在于,所述处理方法包括如下步骤:步骤S1:创建样品数据库和已知数据库;步骤S2:对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;步骤S3:对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;步骤S4:对正常数据集进行特征提取,得到正常特征集;步骤S5:对缺失数据集进行预补全,得到估计值数据集;步骤S6:训练随机森林模型对正常特征集进行分类;步骤S7:基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据,将补全数据导入正常数据集,得到处理数据库;步骤S2包括如下子步骤:步骤S201:获取待处理的蛋白质分子的蛋白序列;步骤S202:对蛋白质分子的蛋白序列进行氨基酸序列编码,得到蛋白质分子的蛋白编码;步骤S203:获取所有蛋白质分子的蛋白编码,将所有蛋白质分子的蛋白编码设置为样品,得到样品编码库;步骤S204:获取已知蛋白质分子,对所有已知蛋白质分子进行氨基酸序列编码,得到已知编码库;所述步骤S202中,氨基酸序列编码包括:获取蛋白质分子的蛋白序列中的氨基酸排序,将蛋白质分子中每个氨基酸用一个字母或数字表示,得到蛋白质分子的氨基酸序列编码;所述步骤S3包括如下子步骤:步骤S301:获取样品编码库中任一蛋白质分子的氨基酸序列编码,对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对,得到缺失相似编码和已知比对编码;步骤S302:获取所有缺失相似编码,得到缺失数据集,获取所有已知比对编码,得到正常数据集;所述步骤S301中的编码比对包括如下步骤:步骤K1:获取任一编码X,对编码X的第n位数据标记为Xn,其中,n的取值为正整数;步骤K2:从已知编码库中获取任一编码数大于等于编码X的编码数的编码,记为已知编码Y,将已知编码Y的第n位数据标记为Yn;步骤K3:判断Yn是否与Xn相同,当Yn与Xn全部相同时,标记编码X为已知比对编码;步骤K4:当Yn与Xn不同时,跳过Y1至Yn,判断Yn+1与Xn是否相同;当Yn+1与Xn完全相同时,标记编码X为缺失相似编码;步骤K5:当Yn+1与Xn不同时,跳过Y1至Yn+1,判断Yn+2与Xn是否相同;当Yn+2与Xn完全相同时,标记编码X为缺失相似编码;步骤K6:当Yn+2与Xn不同时,重复步骤K4至步骤K5,直至对编码Y中的编码全部进行判断,当Yn+i与Xn依然不同时,标记编码X为无关编码,其中n+i等于编码Y的编码数;步骤K7:当判定编码X为无关编码时,从已知编码库中获取另一编码数大于等于n的已知编码,重复步骤K2至K7,直至将编码X判定为已知比对编码或缺失相似编码;步骤S4包括如下子步骤:步骤S401:获取正常数据集中的任一蛋白质分子,将所述蛋白质分子的多个残基位置中的每个残基位置设置为多个片段,所述多个片段包括该蛋白质分子的残基的位置;步骤S402:将蛋白质分子的多个片段设置为蛋白质分子的一级特征;步骤S403:获取蛋白质分子的二级结构,将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征;步骤S404:获取蛋白质分子的三级结构,从蛋白质分子的三级结构中提取出次级键的数量,将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征;步骤S405:对一个蛋白质分子的一级特征、二级特征和三级特征进行整合,得到该蛋白质分子的正常特征,将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集;所述步骤S5包括如下子步骤:步骤S501:获取缺失数据集中的任一蛋白质分子编码,将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对;步骤S502:从步骤K2获取第n位编码与该蛋白质分子编码的Xn+1或者Xn-1完全相同的编码,设置为估计编码;步骤S503:获取所有估计编码,得到估计值数据集;所述步骤S6包括如下子步骤:步骤S601:获取正常特征集,通过随机抽取的方式,将正常特征集平均分为两份,得到训练特征集和测试特征集,训练特征集用于训练随机森林模型,测试特征集用于对训练完成的随机森林模型进行模型校准;步骤S602:建立若干个决策树,所述决策树的数量等于蛋白质分子三级特征的数量;所述决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征;步骤S603:将训练特征集代入所有决策树中,得到训练特征集的特征分类,对决策树进行多次重复训练;步骤S604:当所有决策树都训练完成后,将决策树组合成一个随机森林模型,并输出训练数据分类结果;步骤S605:将测试特征集输入所述随机森林模型中,得到测试数据分类结果,将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类,判断此时分类是否与第一次分类相同,对测试数据得到的分类结果中的所有特征数据都随机代入任一节点,将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率,当分类正确率大于正确率阈值时,判断随机森林模型训练完成,当分类正确率小于正确率阈值时,从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中,并重复步骤S603至步骤S605,直至分类正确率大于正确率阈值;所述步骤S7包括如下子步骤:步骤S701:获取估计值数据集中蛋白质分子的二级特征和三级特征;步骤S702:对估计值数据集中蛋白质分子的二级特征和三级特征进行整合,得到该蛋白质分子的估计特征,将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集;步骤S703:将估计特征集输入步骤S605中训练完成的随机森林模型中,得到估计值数据的分类结果;步骤S704:当正常数据的分类结果与估计值数据的分类结果相同时,判断该估计值数据与正常数据为同类数据,获取正常数据的一级特征,并将正常数据的一级特征填充为该估计值数据的一级特征,得到补全数据;步骤S705:将补全数据导入正常数据集,得到处理数据集。

全文数据:

权利要求:

百度查询: 宁波甬恒瑶瑶智能科技有限公司 基于机器学习的生物信息学数据处理方法、系统及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。