首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:苏州大学

摘要:本发明公开了一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法,从PhosphoSitePlus、iPTMnet、EPSD及CPLM数据库获取蛋白质序列及翻译后修饰位点信息;从Uniprot、AphaFold数据库获取蛋白质序列和结构数据信息;构建蛋白质翻译后修饰功能串扰预测模型,利用该预测模型对蛋白质翻译后修饰位点功能串扰信息进行预测。本发明在引入动力学特征及蛋白质‑蛋白质互作图特征等基于生物物理特征的基础上,整合全连接网络模型、图嵌入模型及随机森林模型,构建一个主动学习的翻译后修饰功能串扰的预测模型;相比于其它翻译后修饰功能串扰模型具有较高的预测准确性。

主权项:1.一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法,其特征在于:包括,从PhosphoSitePlus、iPTMnet、EPSD及CPLM数据库获取蛋白质序列及翻译后修饰位点信息;从Uniprot、AphaFold数据库获取蛋白质序列和结构数据信息;构建蛋白质翻译后修饰功能串扰预测模型,利用该预测模型对蛋白质翻译后修饰位点功能串扰信息进行预测;其中,构建蛋白质翻译后修饰功能串扰预测模型,包括,构建第一子网、构建第二子网和构建第三子网,其中,所述构建第一子网,包括,计算蛋白质翻译后修饰位点残基的序列特征:从UniProt数据库获取蛋白质的序列数据信息,并通过同源序列搜索获得多序列比对,计算蛋白质翻译后修饰位点残基的保守性和共演化信息;其中,保守性香农熵计算公式如下:HX=-∑iPxilog2Pxii表示所有序列中翻译后修饰位点残基的位置,pxi表示xi的概率函数;共演化信息计算的互信息矩阵是基于香农熵,测量给定随机变量Y下随机变量X的不确定度,其公式如下:MIX,Y=HX-HX|Y=HX+HY-HX,Y其中,HX是香农熵,HX|Y=HX,Y-HY,HX,Y是两个随机变量的香农熵,其公式如下: 其中,pxi表示在序列i位置观察到氨基酸x的概率,pxi,yj表示在相应序列位置i和j观察到氨基酸x和y的联合概率,K和L均表示蛋白质氨基酸的序列长度;计算蛋白质翻译后修饰位点残基的结构和动力学特征:首先从AlphaFold数据库获取蛋白质的结构数据信息,使用蛋白质侧链网络计算蛋白质翻译后修饰位点残基的三维结构的网络特征,并使用粗粒化网络模型计算其一系列的动力学特性;其中,在蛋白质侧链网络计算中通过使用氨基酸残基的Cα原子作为节点来构建蛋白质侧链网络:如果至少有一个侧链原子对在截止距离内,则在节点对之间用边连接,节点间相互作用强度计算如下: 其中,Iij是残基i和j之间的相互作用强度,nij是截止距离内的原子对的数量,Ni、Nj是残基i和j的归一化值;在构建好蛋白质侧链网络的基础上,计算蛋白质翻译后修饰位点残基的拓扑特征介数:节点介数是指通过节点的所有最短路径与网络中最短路径总数之比,其公式如下: 其中njk是连接蛋白质侧链网络中任意节点j和节点k的最短路径数,而njki是连接节点j和节点k并通过节点i的最短路径数,反映了节点在特定网络拓扑中位置的重要程度,能有效区分模块的内外边;计算蛋白质翻译后修饰位点残基的拓扑特征紧密度:紧密度表征了局部度量,反映了节点自身的关联能力,不考虑其他节点的控制问题,其公式如下: 其中,di,j表示蛋白质侧链网络中节点j到任意节点i的路径;在粗粒化网络模型计算中,粗粒化网络模型中蛋白质残基的波动服从高斯分布,节点代表蛋白质残基,每个残基均由其碳原子表示,边代表残基之间的相互作用;如果残基之间的距离小于截止距离rc,则将残基连接起来,通常rc取残基间的相互作用势能,公式如下: 其中Υij为力常数,ΔRij为残基i,j之间的波动;在构建好粗粒化网络模型的基础上,计算蛋白质翻译后修饰位点残基的波动性大小,公式如下:ΔRi2=ΔRi·ΔRi=3kBTγ[Γ-1]ii其中kB为玻尔兹曼常数,T代表绝对温度,[Γ-1]ii为基尔霍夫矩阵的倒数;计算蛋白质翻译后修饰位点残基的动力学性质互相关性:互相关性提供了残基之间相对运动的信息,相关性的归一化形式如下: 其中,ΔRi表示第i个残基从其平衡位置的位移的向量; 其中,μik是第k个特征向量的第i个残基,λk是第k个特征值,N是目标残基的数量;Cij的值介于-1和1之间,Cij的绝对值越大,表示两个残基之间的相关性越高;将得到蛋白质翻译后修饰位点残基的序列、结构及动力学特征后,将序列特征向量与结构动力学特征相乘后展平成一维特征向量Fp,使用全连接神经网络模型对提取的特征Fp进行预处理,得到每个蛋白质翻译后修饰位点残基的特征向量Tw28维,即为第一子网,其中,所述预处理得到每个蛋白质翻译后修饰位点残基的特征向量Tw28维,包括,给每一个输入向量Fp分配权值,计算出一个权重向量Tw28维;Tw公式如下:Tw=MT×Fp+b其中,M是线性网络中的权值向量,Fp是展平处理后的蛋白质序列结构动力学特征向量,b是权和偏置向量,MT是指M向量的转置向量;所述构建第二子网,包括,使用基于图形和统计特征的蛋白质序列编码工具FEGS对蛋白质序列进行编码,通过整合蛋白质序列的图形和统计特征,得到500维向量作为每个蛋白质序列的特征向量;利用图编码工具SDNE对蛋白质-蛋白质互作信息进行编码,将生成的蛋白质序列编码的特征作为蛋白质-蛋白质互作网络各节点的特征,得到每个蛋白质的特征矩阵Xi120维;将翻译后修饰功能串扰对形成一个加权的无向图,其中,将每个蛋白质对之间的翻译后修饰功能串扰数作为无向图中边的权重;结合来自蛋白质-蛋白质互作和蛋白质序列编码的特征矩阵,加入翻译后修饰功能串扰的图嵌入层,并使用图编码方式Linear_VAE来提高对翻译后修饰功能串扰的预测效果,得到的特征向量称为Tpair;构建第三子网:对前两个子网的位点特征和网络特征进行特征融合,经过随机森林模型对翻译后修饰串扰给出预测打分,包括,将第一子网获得的特征集矩阵记为Tw;将第二子网获得的特征集矩阵记为Tpair;输入Tw和Tpair计算双线性特征,双线性特征计算公式为:fb=Tw×Tpair其中,fb表示双线性特征;随后将fb展平为一维向量fc,将其传入预测模型,计算串扰的预测分数,其中,预测模型为: 其中,Wc是分类模型的权重矩阵,类似于Softmax函数的权重矩阵。

全文数据:

权利要求:

百度查询: 苏州大学 一种融合生物物理特征的蛋白质翻译后修饰位点功能串扰的预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。