买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海金斯康生物科技有限公司
摘要:本说明书实施例提供一种蛋白质稳定性预测模型的构建方法,所述方法包括:获取训练集,所述训练集包括多个训练样本的信息,每个所述训练样本的信息包括样本蛋白质突变前后的氨基酸序列信息以及突变稳定性标签;获取预训练模型,基于所述多个训练样本的信息,通过所述预训练模型进行特征提取,获得所述多个训练样本的突变特征;以及获取分类器,基于所述突变特征和所述突变稳定性标签,对所述分类器进行训练,获得预测模型,所述预测模型包括所述预训练模型和训练后的所述分类器。本说明书实施例还提供一种预测蛋白质突变后稳定性的方法。
主权项:1.一种蛋白质稳定性预测模型的构建方法,其特征在于,所述方法包括:获取训练集,所述训练集包括多个训练样本的信息,每个所述训练样本的信息包括样本蛋白质突变前后的氨基酸序列信息以及突变稳定性标签;获取预训练模型,基于每个所述训练样本的蛋白质突变前后的氨基酸序列信息,通过所述预训练模型进行特征提取,获得所述训练样本的突变前特征和突变后特征,所述氨基酸序列信息包括突变前氨基酸序列和突变后氨基酸序列;所述突变前特征的提取方法包括:获取所述突变前氨基酸序列的N个氨基酸;通过所述预训练模型提取至少一层输出向量,作为所述突变前氨基酸序列对应的特征向量,其中,所述一层输出向量包括所述突变前氨基酸序列的N个氨基酸分别对应的N个表征向量和N个位置编码;提取与突变区域对应的特征向量作为所述突变前特征;所述突变后特征的提取方法包括:获取所述突变后氨基酸序列的N个氨基酸;通过所述预训练模型提取至少一层输出向量,作为所述突变后氨基酸序列对应的特征向量,其中,所述一层输出向量包括所述突变后氨基酸序列的N个氨基酸分别对应的N个表征向量和N个位置编码;以及提取与突变区域对应的特征向量作为所述突变后特征;其中所述突变区域至少包含突变位点对应的氨基酸;对所述突变前特征和所述突变后特征进行拼接,获得所述多个训练样本的突变特征;对所述突变特征进行降维处理,获得降维后的突变特征;以及获取分类器,基于所述降维后的突变特征和所述突变稳定性标签,对所述分类器进行训练,获得预测模型;其中,所述预测模型包括所述预训练模型和训练后的所述分类器,所述预训练模型为ProtT5-XL,所述分类器采用以下算法中的一种来实现:随机森林算法、卷积神经网络和双向长短期记忆网络。
全文数据:
权利要求:
百度查询: 上海金斯康生物科技有限公司 蛋白质稳定性预测模型的构建方法、预测方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。