买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深药科技(苏州)有限公司
摘要:本发明涉及多肽关键位点预测技术领域,特别涉及一种基于深度语言模型的多肽关键位点预测方法、设备和介质,其包括:训练多肽序列深度语言模型,直至每条序列选择的目标残基的被还原概率达到目标;训练多肽关键位点预测模型,直至输出的多肽关键点位预测精度达到预设阈值;将需关键位点预测的多肽序列输入至目标多肽序列深度语言模型得到多肽序列中每个残基的表征;将表征输入至目标多肽关键位点预测模型,输出每个残基关键位点的预测结果。本发明训练了多肽序列深度语言模型来提取多肽序列的高鉴别性表征,再利用基于深度神经网络模型构建的多肽关键位点预测模型来预测多肽关键位点,进一步地提升了基于序列的多肽关键位点预测性能。
主权项:1.一种基于深度语言模型的多肽关键位点预测方法,其特征在于,包括:构建初始多肽序列深度语言模型,所述初始多肽序列深度语言模型包括编码模块与解码模块;构建第一训练集,获取所述第一训练集中每条序列选择的目标残基,并将所述第一训练集输入至所述初始多肽序列深度语言模型,采用第一优化器和第一损失函数调整模型初始参数,直至每条序列选择的目标残基的被还原概率达到目标概率,则完成训练,得到目标多肽序列深度语言模型;基于深度神经网络构建初始多肽关键位点预测模型,所述初始多肽关键位点预测模型包括卷积层和全连接层;构建第二训练集,基于所述第二训练集训练所述初始多肽关键位点预测模型,采用第二优化器和第二损失函数调整模型初始参数,直至输出的多肽关键点位预测精度达到预设阈值,训练完成,得到目标多肽关键位点预测模型;将待进行关键位点预测的多肽序列输入至所述目标多肽序列深度语言模型,得到所述多肽序列中每个残基的表征;将所述多肽序列中每个残基的表征输入至所述目标多肽关键位点预测模型,输出所述多肽序列中每个残基是否为关键位点的预测结果;其中,所述编码模块包括蛋白质语言模型模块、残差模块和K层全连接层;所述残差模块的数量为2个,其中每个残差模块中包含2层卷积层、1层Dropout层和1个注意力机制层;所述解码模块包含N层全连接层;所述K≥1,N≥1;所述构建第一训练集,包括:截取已被预测序列的多肽数据中长LOOP区域的片段作为伪多肽数据;将所述伪多肽数据与所述已被预测序列的多肽数据合并,构成所述第一训练集;所述构建第二训练集,包括:收集已标注关键位点信息的多肽序列,构建所述第二训练集;所述初始多肽关键位点预测模型包括2层卷积层和L层全连接层;所述L≥1;所述将待进行关键位点预测的多肽序列输入至所述目标多肽序列深度语言模型,得到所述多肽序列中每个残基的表征,包括:将所述多肽序列输入至所述目标多肽序列深度语言模型,通过所述蛋白质语言模型模块生成第一表征;将所述第一表征同时输入至两个残差模块中,输出第二表征;将所述第二表征进行平均,并将平均后的结果输入至N层全连接层,得到所述多肽序列中每个残基的表征。
全文数据:
权利要求:
百度查询: 深药科技(苏州)有限公司 基于深度语言模型的多肽关键位点预测方法、设备和介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。