买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明实施例公开了一种基于图卷积网络的色谱保留指数预测方法及装置,通过化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵;根据堆叠自编码器对所述结构矩阵进行训练和编码,得到编码矩阵;将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型,输出得到色谱保留指数。本实施例从SMILES中提取出化合物分子的拓扑结构及相关信息,对不同大小的化学分子,进入堆叠自编码器后统一编码成固定大小的编码矩阵,在对不同大小的化学分子统一操作过程中,用BP神经网络实现的堆叠自编码器更加准确、快速、节约资源。
主权项:1.一种基于图卷积网络的色谱保留指数预测方法,其特征在于,所述方法包括:根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵;所述根据化合物的SMLIES信息提取化合物的结构信息并转化为结构矩阵,包括:对化合物的SMLIES输入进行语法树解析得到各层次节点和支链;对所述节点进行计数,实现原子提取;对所述支链进行解析,实现键提取、子链提取和环结构提取;在原子、键、子链、环结构信息基础上得到结构矩阵,所述结构矩阵为:领域矩阵A,特征矩阵X,度矩阵D,拉普拉斯矩阵L;根据堆叠自编码器对所述结构矩阵进行训练和编码,得到编码矩阵;将所述编码矩阵输入根据训练组和测试组训练得到的图卷积神经网络模型,输出得到色谱保留指数;所述堆叠自编码器,包括:所述自编码器的输入为[M,M],其中,M为输入的化合物的原子个数;自编码器的输出为[N,N],其中,N为输出的化合物的原子个数;其中,MN,且N50;原子数小于M的原子,对缺位补0操作;所述堆叠自编码器分为四个互不相关、初始参数不同但结构相同的四个子编码器,各子编码器针对不同矩阵进行训练和编码;所述图卷积神经网络模型,包括:所述图卷积神经网络模型由三个图卷积层,三个激活层和三个全连接层组成;具体包括:输入层:对数据进行归一化操作,归一化方式如下: 其中,Xin为特征矩阵X每一输入值,Xmax为Xin中最大值;Xmin为Xin中最小值;图卷积层:每层的结构如下: 其中,D为度矩阵,L为拉普拉斯矩阵,A为领域矩阵,X为经过输入层后的特征矩阵,H为输入矩阵,W为卷积层参数矩阵;激活层:采用Lakerelu函数,结构如下:Hout=LakereuHin全连接层:第一层有N个神经元,第二次为N2个,第三层为N4个;线性输出层:结构如下:Hout=W1*Hin+W2其中,Hin为[n,1]结构矩阵,W1为[1,n]结构矩阵,W2为标量。
全文数据:
权利要求:
百度查询: 中国计量科学研究院 一种基于图卷积网络的色谱保留指数预测方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。