基于机器学习的生物信息学数据处理方法、系统及介质

导航：龙图腾网> 最新专利技术> 基于机器学习的生物信息学数据处理方法、系统及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：宁波甬恒瑶瑶智能科技有限公司

摘要：本发明提供基于机器学习的生物信息学数据处理方法、系统及介质，涉及数据处理技术领域，包括：创建样品数据库和已知数据库；对样品数据库中的蛋白质分子进行编码，得到样品编码库，对已知数据库中的蛋白质分子进行编码，得到已知编码库；对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；对正常数据集进行特征提取，得到正常特征集；对缺失数据集进行预补全，得到估计值数据集；训练随机森林模型对正常特征集进行分类；基于训练完成的随机森林模型对估计值数据集进行特征补全，得到补全数据；本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全，因此在后续的分类上也会存在缺陷的问题。

主权项：1.基于机器学习的生物信息学数据处理方法，其特征在于，所述处理方法包括如下步骤：步骤S1：创建样品数据库和已知数据库；步骤S2：对样品数据库中的蛋白质分子进行编码，得到样品编码库，对已知数据库中的蛋白质分子进行编码，得到已知编码库；步骤S3：对样品编码库中的蛋白质分子编码进行识别分类，得到缺失数据集和正常数据集；步骤S4：对正常数据集进行特征提取，得到正常特征集；步骤S5：对缺失数据集进行预补全，得到估计值数据集；步骤S6：训练随机森林模型对正常特征集进行分类；步骤S7：基于训练完成的随机森林模型对估计值数据集进行特征补全，得到补全数据，将补全数据导入正常数据集，得到处理数据库；步骤S2包括如下子步骤：步骤S201：获取待处理的蛋白质分子的蛋白序列；步骤S202：对蛋白质分子的蛋白序列进行氨基酸序列编码，得到蛋白质分子的蛋白编码；步骤S203：获取所有蛋白质分子的蛋白编码，将所有蛋白质分子的蛋白编码设置为样品，得到样品编码库；步骤S204：获取已知蛋白质分子，对所有已知蛋白质分子进行氨基酸序列编码，得到已知编码库；所述步骤S202中，氨基酸序列编码包括：获取蛋白质分子的蛋白序列中的氨基酸排序，将蛋白质分子中每个氨基酸用一个字母或数字表示，得到蛋白质分子的氨基酸序列编码；所述步骤S3包括如下子步骤：步骤S301：获取样品编码库中任一蛋白质分子的氨基酸序列编码，对于该氨基酸序列编码与已知编码库中的氨基酸序列编码进行编码比对，得到缺失相似编码和已知比对编码；步骤S302：获取所有缺失相似编码，得到缺失数据集，获取所有已知比对编码，得到正常数据集；所述步骤S301中的编码比对包括如下步骤：步骤K1：获取任一编码X，对编码X的第n位数据标记为Xn，其中，n的取值为正整数；步骤K2：从已知编码库中获取任一编码数大于等于编码X的编码数的编码，记为已知编码Y，将已知编码Y的第n位数据标记为Yn；步骤K3：判断Yn是否与Xn相同，当Yn与Xn全部相同时，标记编码X为已知比对编码；步骤K4：当Yn与Xn不同时，跳过Y1至Yn，判断Yn+1与Xn是否相同；当Yn+1与Xn完全相同时，标记编码X为缺失相似编码；步骤K5：当Yn+1与Xn不同时，跳过Y1至Yn+1，判断Yn+2与Xn是否相同；当Yn+2与Xn完全相同时，标记编码X为缺失相似编码；步骤K6：当Yn+2与Xn不同时，重复步骤K4至步骤K5，直至对编码Y中的编码全部进行判断，当Yn+i与Xn依然不同时，标记编码X为无关编码，其中n+i等于编码Y的编码数；步骤K7：当判定编码X为无关编码时，从已知编码库中获取另一编码数大于等于n的已知编码，重复步骤K2至K7，直至将编码X判定为已知比对编码或缺失相似编码；步骤S4包括如下子步骤：步骤S401：获取正常数据集中的任一蛋白质分子，将所述蛋白质分子的多个残基位置中的每个残基位置设置为多个片段，所述多个片段包括该蛋白质分子的残基的位置；步骤S402：将蛋白质分子的多个片段设置为蛋白质分子的一级特征；步骤S403：获取蛋白质分子的二级结构，将蛋白质分子多肽链中主链原子的局部空间排布设置为蛋白质分子的二级特征；步骤S404：获取蛋白质分子的三级结构，从蛋白质分子的三级结构中提取出次级键的数量，将蛋白质分子中次级键的数量设置为蛋白质分子的三级特征；步骤S405：对一个蛋白质分子的一级特征、二级特征和三级特征进行整合，得到该蛋白质分子的正常特征，将正常数据集中的所有蛋白质分子的正常特征整合后得到正常特征集；所述步骤S5包括如下子步骤：步骤S501：获取缺失数据集中的任一蛋白质分子编码，将该蛋白质分子编码与已知编码库中的蛋白质分子编码进行编码比对；步骤S502：从步骤K2获取第n位编码与该蛋白质分子编码的Xn+1或者Xn-1完全相同的编码，设置为估计编码；步骤S503：获取所有估计编码，得到估计值数据集；所述步骤S6包括如下子步骤：步骤S601：获取正常特征集，通过随机抽取的方式，将正常特征集平均分为两份，得到训练特征集和测试特征集，训练特征集用于训练随机森林模型，测试特征集用于对训练完成的随机森林模型进行模型校准；步骤S602：建立若干个决策树，所述决策树的数量等于蛋白质分子三级特征的数量；所述决策树的节点为随机抽取的蛋白质分子的一级特征和蛋白质分子的二级特征；步骤S603：将训练特征集代入所有决策树中，得到训练特征集的特征分类，对决策树进行多次重复训练；步骤S604：当所有决策树都训练完成后，将决策树组合成一个随机森林模型，并输出训练数据分类结果；步骤S605：将测试特征集输入所述随机森林模型中，得到测试数据分类结果，将测试数据的任一分类结果中的任一特征数据代入测试特征集中的任一决策树的节点进行二次分类，判断此时分类是否与第一次分类相同，对测试数据得到的分类结果中的所有特征数据都随机代入任一节点，将二次分类与一次分类相同的次数与判断次数的比值设置为分类正确率，当分类正确率大于正确率阈值时，判断随机森林模型训练完成，当分类正确率小于正确率阈值时，从测试特征集中随机抽取第一百分比的测试数据归纳到训练特征集中，并重复步骤S603至步骤S605，直至分类正确率大于正确率阈值；所述步骤S7包括如下子步骤：步骤S701：获取估计值数据集中蛋白质分子的二级特征和三级特征；步骤S702：对估计值数据集中蛋白质分子的二级特征和三级特征进行整合，得到该蛋白质分子的估计特征，将估计值数据集中的所有蛋白质分子的估计特征整合后得到估计特征集；步骤S703：将估计特征集输入步骤S605中训练完成的随机森林模型中，得到估计值数据的分类结果；步骤S704：当正常数据的分类结果与估计值数据的分类结果相同时，判断该估计值数据与正常数据为同类数据，获取正常数据的一级特征，并将正常数据的一级特征填充为该估计值数据的一级特征，得到补全数据；步骤S705：将补全数据导入正常数据集，得到处理数据集。

全文数据：

权利要求：

百度查询：宁波甬恒瑶瑶智能科技有限公司基于机器学习的生物信息学数据处理方法、系统及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种压力容器主管道封盖拆除的简易工装

下一篇：一种果树苗木移栽机

相关技术

一种压力容器主管道封盖拆除的简易工装

一种果树苗木移栽机

一种水利巡河安全警报组件

一种钢筋生产中的钢筋推送装置

一种可调式道路交通指示装置

一种蒸汽产生装置

一种混凝土抗水检测装置

一种设有外包透明管的机电安装吊杆结构

一种污水废水多级处理装置

一种带温度监测功能的配电柜

一种吊耳生产用钻孔设备

雾化装置

生物信息学相关技术

一种基于大数据的生物信息学分析方法及系统_东莞兰卫医学检验实验室有限公司_202410688339.9

输入装置以及生物体信息检测装置_精工爱普生株式会社_202410276697.9

一种基于代谢组学的乳腺癌检测生物标志物及其应用_浙江大学_202310211338.0

治疗诊断学叶酸酯缀合物_默克专利股份有限公司_202380019559.6

一种生物信息分析方法及装置、电子设备及存储介质_圣湘生物科技股份有限公司_202111658396.5

帮助信息显示系统、帮助信息显示方法及帮助信息显示程序_株式会社百德立孚_201980062420.3

信息处理程序、信息处理装置以及信息处理方法_富士通株式会社_202280091307.X

融合物种文本信息和机器视觉模型的水生生物物种鉴定方法及系统_中国环境监测总站_202410600512.5

信息处理设备、信息处理方法和程序_索尼公司_201980010919.X

信息处理装置、信息处理方法及程序_雅马哈株式会社_202280091161.9

系统相关技术

成像系统_浙江舜宇光学有限公司_202410886257.5

热泵系统_上海海立新能源技术有限公司_202323294098.X

光系统_松下知识产权经营株式会社_202380020657.1

辅助系统_三菱自动车工业株式会社_202380019777.X

发电系统_烟台龙源电力技术股份有限公司_202111393174.5

转向系统_株式会社捷太格特_201911155954.9

电池系统_松下知识产权经营株式会社_201980042164.1

连接器、天线系统及插头系统_立讯电子科技(昆山)有限公司_202410917186.0

流场成像的测量系统和主系统_中国人民解放军国防科技大学_202110310940.0

控制系统、搬运系统以及控制方法_株式会社日立产业机器_202280090936.0

方法相关技术

显微方法_卡尔蔡司医疗技术股份公司_202010076715.0

发酵方法_德希尼布能源法国公司_202410736056.7

诊断方法_夸登特健康公司_202111601219.3

一种多维数据的抽样方法、电路仿真方法和电路分析方法_贝叶斯电子科技(绍兴)有限公司_202410807426.1

检漏方法_华虹半导体(无锡)有限公司_202111255430.4

数据生成方法、业务回复方法及设备_马上消费金融股份有限公司_202410333977.9

图像编码/解码方法和图像数据的发送方法_LX半导体科技有限公司_202410979218.X

模型训练方法、图像分类方法及相关装置_马上消费金融股份有限公司_202410347300.0

模型构建方法、文本处理方法及装置_马上消费金融股份有限公司_202410521943.2

显示面板及其补偿数据确定方法、驱动方法_合肥维信诺科技有限公司_202410383273.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于机器学习的生物信息学数据处理方法、系统及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务