买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中山大学
摘要:本发明提出了一种基于分子图和序列的深度嵌入学习的药物‑靶标相互作用预测模型方法,该方法是建立基于注意力机制的图神经网络和有注意力导向的双向LSTM来预测相互作用,其中,为了更有效的训练,利用预训练模型BERT从蛋白质序列中提取各个子序列的嵌入向量表示,同时设计局部广度优先搜索算法提取药物分子图的子图信息,使得图神经网络学习更高的特征信息。该发明一方面,在药物分子方面,基于分子图可以学习到更好的空间特征;另一方面,蛋白质序列数据量大,可以覆盖更大的蛋白质空间,提高泛化能力。
主权项:1.一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入;所述药物分子在分子图上,基于深度为r的范围内做DepthFirstSearch,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构,包括以下步骤:S1:图神经网络能通过聚合函数将图G映射成低维稠密向量,对于一个给定的分子图,将药物分子的原子看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;S2:当给定图G={V,E},V表示节点集合,E表示边集合,对分子图进行建模,鉴于原子类型和分子键的类型较,基于图的某一个节点,进行DepthFirstSearchDFS搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义vi深度为r的子图 其中,表示节点i在子图上的邻接节点集合,vm,vn代表节点vm和vn相连接的边;S3:对基于深度为k的子图提取相应的特征,然后将这些特征作为初始的节点特征向量xi,给定一个子图以及初始化的特征向量xi,节点vi就可以通过聚合周围邻居节点的潜入向量表示进行更新,此步骤是针对子图中的所有节点,经过聚合操作后,在子图中的每个节点结合他们各自的邻居节点信息以及该节点前k-1步状态的嵌入向量更新自身的嵌入向量表示,节点vi新的嵌入向量表示就输入到下一层图神经网络层中继续以同样的方式进行更新节点的向量;最终,可以更新得到第k步的节点vi的隐藏向量 其中W是待学习的参数矩阵;S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征其中N代表节点数量,而F是节点特征的数量,将这一系列节点特征作为注意力层的输入,使用LeakyReLU非线性激活函数来计算attentioncoeffients:coefij=Leaky_reluWatten·[hi,hj]对任意节点令ai为所有注意力系数aij组成的向量;S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readoutoperation来描述图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即: 用矩阵形式表示得到: 其中是注意力矩阵,由复合物中的N个节点的隐藏向量组成的节点特征矩阵。
全文数据:
权利要求:
百度查询: 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。