买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江西师范大学
摘要:本发明属于深度学习和生物信息学领域,公开了基于迁移学习和三通道组合GNN预测蛋白质功能的方法,该方法通过解析蛋白质空间结构文件,提取出有不同连接密度的氨基酸残基接触图;基于迁移学习构建氨基酸序列混合特征提取器,以得到氨基酸序列的残基级混合特征映射;引入图卷积网络和拥有多头图注意力机制的GATv2网络构建三通道组合图神经网络,用于进行蛋白质功能预测;通过多标签分类器得到每一个蛋白质基因本体论功能标签的概率值。本发明提高了蛋白质功能预测性能,方便了研究人员高效且全面的获取蛋白质条目在不同权威数据库中的复杂关联信息。
主权项:1.基于迁移学习和三通道组合GNN预测蛋白质功能的方法,其特征在于,包括以下步骤:步骤S1、从蛋白质公共数据库获取蛋白质的氨基酸序列、蛋白质空间结构文件、蛋白质基因本体论功能标签,对所获取的数据进行交叉关联和数据清洗后,构建NoSQL类型的蛋白质文档型关联数据库,从蛋白质文档型关联数据库中获取蛋白质功能预测任务的基准数据集,并将其划分为训练集、验证集和测试集;步骤S2、解析蛋白质空间结构文件,从中提取蛋白质分子中每一个氨基酸残基中Ca原子的空间坐标,基于所有残基中Ca原子的空间接触关系,分别按照不同的接触阈值提取出有不同连接密度的氨基酸残基接触图,以映射蛋白质分子的复杂空间结构;步骤S3、基于迁移学习构建氨基酸序列混合特征提取器,通过氨基酸序列混合特征提取器从氨基酸序列中提取出多类残基级特征,组成序列初级嵌入表示;对序列初级嵌入表示进行特征融合和富集化操作后得到氨基酸序列的残基级混合特征映射;步骤S4、引入图卷积网络和拥有多头图注意力机制的GATv2网络构建三通道组合图神经网络,以氨基酸序列的残基级混合特征映射作为三通道组合图神经网络的初始特征矩阵输入,氨基酸残基接触图将作为不同特征通道的邻接矩阵输入,捕捉和学习蛋白质分子中氨基酸残基间的复杂图关系,结合氨基酸序列的残基级混合特征映射和多级结构特征进行蛋白质功能预测;步骤S5、构建一个多标签分类器,对三通道组合图神经网络的输出节点特征进行全局池化以及聚合操作,将聚合后特征映射到0-1的概率空间中,得到每一个蛋白质基因本体论功能标签的概率值;步骤S6、由序列混合特征提取器、三通道组合图神经网络、多标签分类器组成一个完整的蛋白质功能预测模型,在训练集上预训练该蛋白质功能预测模型,使用验证集和测试集评估蛋白质功能预测模型不同训练阶段的性能,使用训练合格的蛋白质功能预测模型进行蛋白质功能预测。
全文数据:
权利要求:
百度查询: 江西师范大学 基于迁移学习和三通道组合GNN预测蛋白质功能的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。