南通大学附属医院姚登福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南通大学附属医院申请的专利基于人工智能片段化技术的先导活性分子生成与筛选方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118800363B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410771966.9,技术领域涉及:G16C20/50;该发明授权基于人工智能片段化技术的先导活性分子生成与筛选方法是由姚登福;王理;姚敏;邵劲松设计研发完成,并于2024-06-15向国家知识产权局提交的专利申请。
本基于人工智能片段化技术的先导活性分子生成与筛选方法在说明书摘要公布了:本发明属于AI辅助药物设计领域,公开了基于人工智能片段化技术的先导活性分子生成与筛选方法,包括基于AIDD的片段化活性分子的数据处理、高亲和力的活性分子片段预测以及先导活性分子筛选。本发明从语言模型角度,将分子碎片化为多个token的组合,关注这些token片段的相互作用关系,找到对分子性质影响较大的片段。进一步以分子的分段表示为基础结合语言模型,使用基于语言模型的亲和力模型来筛选具有高亲和力的分子片段。所得到高亲和力的分子片段可以进一步结合分子属性约束,最终通过多维属性预测模型对初步生成的分子进行筛选,生成先导活性分子,实现了AI辅助药物生成的完整解决方案。
本发明授权基于人工智能片段化技术的先导活性分子生成与筛选方法在权利要求书中公布了:1.一种先导活性分子的预测方法,其特征在于,使用基于AIDD的片段化活性分子数据处理方法获得活性分子片段的表征,经亲和力预测方法获得的高亲和力活性分子片段表征,再经分子生成模型生成先导活性分子; 所述基于AIDD的片段化活性分子数据处理方法包括如下步骤: 步骤一、构建片段词典 (1)将数据集中的数据源分子转化为线性化文本,数据源分子为化合物、核酸、多糖中的一种或几种的组合时,将数据源分子转化为SMILES字符串,数据源分子为多肽或蛋白质时,将多肽或蛋白质中氨基酸残基序列按照亚基顺序首尾相接,形成完整的一条氨基酸残基序列; (2)采用序列切分算法将所有SMILES字符串或氨基酸残基序列切分为片段,构建片段词典,所述序列切分算法选自VOLT, 训练过程如下: a)根据预生成token的频率对所有候选token进行由高到低排名; b)所有具有概率的token都用于在最优传输算法中初始化,在每个时间步上,根据传输矩阵得到熵最大的片段词典; c)穷举所有的时间步长,选择满足指定指数搜索空间的词汇作为最终词汇; d)使用贪婪策略编码文本:先将句子分割成字符级的标记,若合并后的token在片段词典中,则将两个连续的token合并为一个token,直到没有token可以合并为止,片段词典外标记将被分割成更小的标记; 步骤二、活性分子数据处理 (1)活性分子转化为线性化文本,活性分子为化合物、核酸、多糖中的一种或几种的组合时,将活性分子转化为SMILES字符串,活性分子为多肽或蛋白质时,将多肽或蛋白质中氨基酸残基序列按照亚基顺序首尾相接,形成完整的一条氨基酸残基序列; (2)在步骤一构建的片段词典指导下,采用序列切分算法将活性分子的SMILES字符串或氨基酸残基序列切分为片段,统计词频低于5个的片段定义为“低频片段”,在编码过程中,包含“低频片段”的活性分子中所有“低频片段”按照同一个token进行编码,得到活性分子片段; (3)经过分子片段表征提取方法提取活性分子每个片段的表征,所述分子片段表征提取方法选自Word2Vec、ERNIE、Electra、UniversalSentenceEncoder、BagofWords、TF-IDF、n-gram、GloVe、BERT、GPT、ELMo或Transformer; 所述活性分子片段的亲和力预测方法,将上述获得的活性分子片段的表征输入蛋白-化合物亲和力模型提取相应信息,选择A、B两种活性分子的片段集合代表A、B两组片段,组间两两配对,或同一活性分子片段分为A、B两组,组间两两配对,根据配对片段之间相互作用进行计算,所述蛋白-化合物亲和力模型使用基于预测结果和真实标签的二元交叉熵损失函数对整个网络进行持续优化,最终获得各配对片段的亲和度特征, 具体包括如下步骤: (1)分别得到A组片段表征的全局注意力矩阵和B组片段表征的全局注意力矩阵; (2)将A组片段表征的全局注意力矩阵和B组片段表征的全局注意力矩阵相乘得到局部亲和度矩阵; (3)将局部亲和度矩阵通过softmax和转置得到局部注意力修正矩阵; (4)将局部注意力修正矩阵与A组片段表征的全局注意力矩阵相乘得到局部注意力修正下的A组片段表征矩阵;将局部注意力修正矩阵与B组片段表征的全局注意力矩阵相乘得到局部注意力修正下的B组片段表征矩阵; (5)将A组片段表征的全局注意力矩阵与局部注意力修正下的A组片段表征矩阵进行向量维度上的拼接,得到混合A组片段表征;将B组片段表征的全局注意力矩阵与局部注意力修正下的B组片段表征矩阵进行向量维度上的拼接,得到混合B组片段表征; (6)分别将混合A组片段表征和混合B组片段表征通过全连接层后通过全局自适应池化,得到全局特征与局部特征融合后的A组片段表征和B组片段表征; (7)将全局特征与局部特征融合后的A组片段表征和B组片段表征在片段维度上进行拼接,得到每一对A组和B组片段的亲和度特征;将得到的亲和度特征,依次通过全局自适应池化层与激活函数层得到每一对A组和B组片段的预测结果,依据预测的结果和真实标签,使用二元交叉熵损失函数,不断优化整个网络,最终获得各配对片段的亲和度特征; 所述分子模型以C-Transformer为基础,引入活性分子的至少两个属性作为C-Transformer的条件编码,将活性分子线性化文本SMILES切分为片段表征,作为C-Transformer的结构编码训练,使用C-Transformer对一个随机初始分子和任意一个片段进行编码,计算初始分子和片段距离D,计算随机初始分子分子骨架和片段分子骨架的相似度S,通过强化学习对D*S数值作为奖励参照,相似度大且距离近则进行奖励,反之进行惩罚,从而对生成的分子结构进行约束,所述活性分子的属性选自脂溶性、水溶性、分子量、溶解度、分配系数LogP、pKa值、极性表面积PSA、氢键供体数量、氢键受体数量、拓扑极性表面积TPSA、半衰期、降解速率常数、热稳定性、pH稳定性、光稳定性、体外代谢半衰期、内在清除率、生物利用度、毒性、血脑屏障通透性、水溶液酸碱性、溶解度或极性, 所述C-Transformer中对结构约束的损失函数公式如下: 其中D为初始分子和片段的欧式距离,S为分子骨架与片段分子骨架的相似度,a为用于分配C-Transformer和强化学习对模型梯度影响的权重参数,n为batch的大小; 所述C-Transformer中对分子属性的损失函数公式如下: 其中是目标属性值,是生成分子计算得出的属性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南通大学附属医院,其通讯地址为:226001 江苏省南通市崇川区西寺路20号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。