基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法

导航：龙图腾网> 最新专利技术> 基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江南大学

摘要：本发明属于人工智能算法应用‑生物序列识别领域，涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先，通过数据收集、整合与去冗余，优化特征空间，减少冗余信息，获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着，使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码，获得输入特征矩阵。而后，采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理，确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。

主权项：1.基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法，其特征在于，步骤如下：第一步：数据集构造1.1序列截取与验证：对于人类蛋白质序列，截取实验验证赖氨酸K为“acetyllysine”或“crotonyllysine”或“methyllysine”或“succinyllysine”修饰的肽片段；每条肽片段都可以表示为式1的形式：P＝R-24R-23…R-2R-1R1R2…R23R2411.2数据分类与优化：对于预处理的四种赖氨酸修饰数据，总共可获得十五个类别，去掉序列少于60条的类别，最后数据集被划分成十一个类别：数据类别说明：指中心位置的赖氨酸仅包含乙酰化修饰的蛋白质序列；指既包含乙酰化又包含巴豆酰化修饰的蛋白质序列；其中∩表示该类别样本兼具多种翻译后修饰；第二步：特征提取对数据进行特征提取；采用的多标签具体位置三联氨基酸倾向算法；第三步：数据不平衡处理使用基于MinibatchKmeans的ClusterCentroids欠采样算法对第一类数据进行处理；其具体如下：3.1初始化：将第二步特征提取后得到的第一类数据划分出来，记为D；设置要进行的聚类数：k、小批量数据数：b、最大迭代次数：T、欠采样比例：0.1；3.2从D中随机选择k个数据点作为初始聚类中心，记为{c1,c1,…,ck}；3.3从D中随机化选择b个数据，记为M；3.4将M中的所有数据，分别计算出与{c1,c1,…,ck}的距离；3.5将M中的每个数据分配到该数据距离最近的聚类中心；3.6更新{c1,c1,…,ck}3.7反复执行T次3.3.2-3.3.6之间的操作；3.8基于各个聚类中心内的点与质心的最小距离来选取数据，作为欠采样后的数据；选取的数据量为：9279*0.1≈928；3.9将2～11类数据与采样后的第一类数据组合，组成最终的训练数据；第四步：分类模型构建采用一种多标签分类模型，包含损失函数、激活函数、卷积神经网络架构；具体步骤如下：4.1构建损失函数采用了一个适用于多标签分类的二进制交叉熵损失函数，具体计算公式如下：其中N表示样本数量，yi表示第i个样本的真实标签，表示模型对第i个样本的预测概率，即模型输出的值；4.2构建激活函数选择ReLU函数作为卷积层与池化层之间的激活函数，以及全连接部分的隐藏层激活函数；在全连接的输出层中，使用Sigmoid激活函数，使得输出的四维向量均介于0和1之间，表示为模型分别对四个标签的预测概率；4.3构建卷积神经网络架构。

全文数据：

权利要求：

百度查询：江南大学基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

下一篇：BC电池激光划线设备

相关技术

一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

BC电池激光划线设备

两歧双歧杆菌BD-1在制备抗过敏的产品中的应用

一种建筑工程结构缝隙灌浆装置

一种纯水中超快激光烧蚀制备高活性纳米氧化银析氢材料的方法

显示设备

一种基于感知线程束类型的GPGPU性能优化方法

显示装置

一种覆铜板加工用表面整平装置

一种智能围棋教学系统

一种缺陷管道非开挖修复的清淤装置及其施工方法

一种高安全性的并机并网的储能设备

技术相关技术

一种报警技术误报甄别方法_浙江猎人特卫安保集团有限公司_202311540103.2

基于EIT技术的重症患者监测方法及系统_中山市人民医院_202410902685.2

用于管理不连续接收定时器的技术_苹果公司_202280088508.4

用于形成相机的悬架组件的技术_苹果公司_202110924334.8

一种基于超导线的磁体编织技术_华北电力大学_202410565460.2

多功能破拆救援技术训练装置_中国人民警察大学_202010438816.8

生物技术开发设备用快速消毒装置_陕西悦沐伦安科技有限公司_202323463976.6

物理对象边界检测技术和系统_电子湾有限公司_201980032813.X

一种基于LDS技术的智能穿戴装置_苏州晓屿科技有限公司_202420511646.5

基于物联网技术的金融仓监管方法_浪潮智慧供应链科技(山东)有限公司_202410968947.5

预测相关技术

水务用电情况预测系统_上海悦程信息技术有限公司_202410896852.7

异常预测方法及设备_深圳前海微众银行股份有限公司_202111077865.4

一种基于深度学习的森火蔓延预测方法及预测装置_清华大学深圳国际研究生院_202210201912.X

相对吸水量预测模型的构建方法和相对吸水量预测方法_北京国双科技有限公司_201911181838.4

一种云层运动预测系统、预测方法及存储介质_重庆长安汽车股份有限公司_202210313196.4

基于注视点预测模型的驾驶员注视点预测方法_西安电子科技大学_202210853133.8

一种基于灰色预测模型的风速预测与海上风机选型方法_上海交通大学_202410708510.8

一种用于电池使用寿命的预测系统及预测方法_东方旭能(山东)科技发展有限公司_202410864640.0

充电站日前需求响应潜力预测模型构建、预测方法及系统_国网智能电网研究院有限公司_202410841349.1

性能预测模型的训练方法及装置、性能预测方法及装置_中国科学技术大学苏州高等研究院_202411186366.2

采样相关技术

多通道电压采样装置、系统及采样设备_深圳市研辰科技有限公司_202323658005.7

土壤检测采样装置_巴彦淖尔市农牧业产业园区服务中心_202420255531.4

数据采样方法及装置_苏州萨沙迈半导体有限公司_202411181898.7

液体采样方法和装置_宁波华仪宁创智能科技有限公司_202410598574.7

采样开关、模拟信号采样电路、方法及电子设备_徕映科技(上海)有限公司_202410764336.9

一种信号采样电路、电机控制电路和信号采样方法_华为技术有限公司_202310310046.2

信号采样方法和测距装置_深圳市迈测科技股份有限公司_202410950538.2

电流采样电路及程控电源装置_湖南恩智测控技术有限公司_202420285544.6

采样电路、方法、装置及源表_湖南恩智测控技术有限公司_202410978499.7

一种涂料送检采样设备_成都市美莱雅涂料有限公司_202420055324.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务