首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合数据平衡与分子碎片化的化合物毒性评价方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆大学

摘要:本发明涉及一种融合数据平衡与分子碎片化的化合物毒性评价方法,该方法首先根据毒性端点选择建模方法,然后使用练数据集对两种建模方法下的模型进行训练分别得到全局建模元模型和顺序建模元模型;对待预测化合物分子选择元模型并判断其是否在元模型的应用域内,如果在应用域内则将待预测化合物分子输入对应的元模型中进行预测,并对预测结果进行毒性悬崖测试,通过的预测结果如果大于给定共识分数阈值做则作为最终预测结果输出。如果不在应用域内直接输出无法预测。本方法可以智能灵活地选择合适的建模块,从而在不同的目标上实现化合物毒性属性的准确预测。

主权项:1.一种融合数据平衡与分子碎片化的化合物毒性评价方法,其特征在于,包括如下步骤:S101:选定毒性端点,根据毒性端点对应的可使用的训练数据集的平衡度B选择合适的建模方法:如果训练数据集的平衡度B≤10,则训练数据集为平衡数据集,选择全局建模方法,执行S102,如果训练数据集的平衡度B10,则训练数据集为非平衡数据集,选择顺序建模方法,执行S103;S102:对于给定的训练数据集,依次计算训练数据集中分子的Q种不同的分子指纹f,以分子指纹作为第一元模型块的输入,利用训练数据集中的标签进行有监督学习,并采用随机梯度下降法更新第一元模型块的权重,最终获得Q个全局建模元模型,执行S104;S103:对于给定的训练数据集,对训练数据集中的化合物分子中的原子序号进行标记,提取原子连接信息,并对化合物分子进行选择性分解使其碎片化及序列化,得到正逆两组分子碎片序列;计算训练数据集中分子的Q种不同的分子指纹f;依次利用Q种不同的分子指纹f表征分子碎片得到两组指纹序列S[f1,f2,...,fi]和RS[fi,fi-1,...,f1]作为第二元模型块的输入,使用训练数据集中的标签进行有监督学习,并采用随机梯度下降法更新第二元模型块权重,最终获得Q个顺序建模元模型,执行S104;S104:对于待预测化合物分子,首先选定毒性端点以及对应的一组元模型,共计Q个元模型,利用分子指纹与训练数据集的相似性判断待预测化合物分子是否在全局建模元模型和顺序建模元模型的应用域内,如果是,执行S105,否则执行S112;S105:判定选定的元模型的建模方法,如果是顺序建模方法则执行S106,如果是全局建模方法则否则执行S107;S106:对于在应用域之内的化合物分子,Q个顺序建模元模型得到Q组预测结果,每组预测结果由L1和L2组成,判断L1=L2是否成立,如果成立则最终预测结果L=L1=L2,保留通过一致性检验的最终预测结果{L1,L2,…,Lt},其中t为保留的预测结果数量,t≤Q,并执行S108;S107:对于在应用域之内的化合物分子,Q个全局建模元模型得到Q个最终预测结果L{L1,L2,…,Li},i=7,执行S108;S108:根据端点对应的训练数据集标签类别判断是否为二分类问题,即vT或nT端点,如果是则执行S110,否则执行S109;S109:对每个最终预测结果进行毒性悬崖测试:待预测化合物分子与训练数据集的平均相似距离大于等于崖值,且预测标签结果与训练数据集中最相似分子的标签差绝对值大于等于设定值;保留通过毒性悬崖测试的最终预测结果{L1,L2,…,Lj},其中j为保留的最终预测结果数量,执行S110;S110:计算共识分数CS,如果CS大于给定共识分数阈值,则保留最终输出结果L并执行S111,否则执行S112;S111:输出最终预测结果;S112:输出“模型无法准确预测该化合物毒性”。

全文数据:

权利要求:

百度查询: 重庆大学 一种融合数据平衡与分子碎片化的化合物毒性评价方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。