首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于简并编码及深度学习的MHC预测模型构建方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:四川大学

摘要:本发明提供了一种基于简并编码及深度学习的MHC预测模型构建方法及系统,构建了能预测Ⅰ类主要组织相容性复合体与抗原肽结合的ConvNeXt‑MHC预测模型,模型主要包括两个部分,第一个部分提供了一种简并编码方法,提高了经典MHCI与多肽的结合性预测模型的泛化性能;第二个部分,设计了ConvNeXt‑MHC模型网络的整体架构,并将迁移学习和半监督学习方法整合到深度学习框架ConvNeXt中,通过扩充数据和增加先验知识的方式提升了模型的准确性和泛化性。本方案可以开展MHCI与多肽的在线结合性预测、多肽的基序分析和数据共享,捕获更丰富的信息,预测效果显著优于现有方法。

主权项:1.基于简并编码及深度学习的MHC预测模型构建方法,其特征在于,所述方法包括:S1、对pMHCI结构数据进行过滤,并对齐不同等位氨基酸残基的位点,得到预处理MHC数据;对MS数据及AF数据进行预处理,得到预处理MS数据及预处理AF数据;S2、获取伪序列位点:基于预处理MHC数据,筛选出与多肽距离小于距离阈值的候选氨基酸序列位点,保存至数据集S,并计算各位点频率;基于截断频率及各位点频率,选取氨基酸序列位点,并删除同源性位点,建立筛选后MHC数据与多肽位点对应关系,以建立伪序列位点矩阵,所述伪序列位点矩阵中各元素表示多肽位点与对应氨基酸序列位点是否接触;S3、按照多肽位点顺序,将与同一个多肽位点残基有接触的多个氨基酸序列位点编码到一个向量,以构建简并编码矩阵;S4、构建MHC模型,所述MHC模型至少包括依次连接的注意力块、第一融合深度卷积块、第一下采样层、第二融合深度卷积块和第二下采样层;所述注意力块为所述简并编码矩阵增加先验知识;S5、通过所述预处理MS数据及所述预处理AF数据,分别训练所述MHC模型,分别获得预测MS数据的抗原呈递模型及预测AF数据的亲和力结合模型;所述S3中,简并编码矩阵的构建方式进一步包括:S31、将多肽转化为九肽,获得九个氨基酸数据,并将对应位置氨基酸进行编码,得到九肽数据;S32、基于预处理MHC数据的类型及类型对应的氨基酸种类,根据伪序列位点矩阵的位置对应关系,将预处理MHC数据转化为伪序列,伪序列中对应位置拥有的氨基酸标记为1,未拥有的标记为0;S33、将所述九肽数据进行20次堆叠,并与所述伪序列进行拼接,得到简并编码矩阵;所述S4中,所述注意力块为所述简并编码矩阵增加先验知识的方式为:首先,统计氨基酸频率,并计算注意力块初始权重: 其中,Amio_acid_freq表示二十个氨基酸的频率,h表示二十个氨基酸之一,init_weighth表示注意力块初始权重;其次,构建注意力块中卷积核,并针对简并编码矩阵计算注意力数值[a1;a2;…;aH]:ah=Conv1DhX[h,:,:],kernal_size=W,filter=1其中,Conv1Dh表示对应h层的一维卷积核,kernal_size表示卷积核大小,W为宽度,X[h,:,:]表示简并编码矩阵X按照第一个维度进行切分并获取h层对应的矩阵切片,H表示简并编码矩阵的总层数;再次,将注意力值与简并编码矩阵混合,得到混合注意力简并编码矩阵,混合方式为:X′=[a1IX[1,:,:],…,aHIX[H,:,:]]其中,I为单位矩阵,aH为上述注意力值;所述混合注意力简并编码矩阵作为注意力块的输出数据;所述第一融合深度卷积块和第二融合深度卷积块具体设置方式为: WiseConvPi,j=[DepthConvV1,P[:,:,1]i,j;…;DepthConvVc,P[:,:,C]i,j]其中,P=[P[:,:,1];…;P[:,:,C]],矩阵P表示输入矩阵;C表示输入矩阵P的第三个维度的通道数目,c∈C,Vc表示c通道对应的卷积核,K和L表示卷积核大小分别为K和L,k∈K,l∈L,i和j表示在输入矩阵P中前两维度的位置值;DepthConv表示深度卷积计算,WiseConv表示逐点卷积计算。

全文数据:

权利要求:

百度查询: 四川大学 基于简并编码及深度学习的MHC预测模型构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。