首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南通大学

摘要:本发明公开了基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法,属于生物制药、机器学习以及智能优化算法技术领域;其技术方案为:包括以下步骤:1、变量筛选:2、预测模型建立:3、分类模型建立;4、利用遗传算法、预测模型和分类模型对数据样本进行迭代寻优,找到ERα拮抗剂的生物活性值达到最优和ADMET性质至少三个性质最好时的对应的自变量的值。本发明的有益效果是:本发明并通过遗传算法实现对生物活性和ADMET性质的优化。

主权项:1.基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法,其特征在于:包含以下步骤:1、变量筛选:1统计各自变量的数据全为零的情况,将所有样本数据全为零的变量进行删除;2随机森林重要度筛选随机森林算法在分类的基础上进行回归分析,通过将样本分类的结果进行一定的运算获得各个特征重要性特征的重要性表示特征对预测结果影响程度,某一特征重要性越大,表明该特征对预测结果的影响越大,重要性越小,表明该特征对预测结果越小,特征权值反映了操作变量的重要程度占比,对每一个操作变量的特征权值,其表示为该特征的平均袋外数据误差与全体特征平均袋外数据误差之和的比值,具体数学表达式如下所示: 其中,weightj为特征j的权值,MOETj为特征j的平均袋外数据误差,D为特征总数,此处为预处理后的操作变量总数;3斯皮尔曼Spearman相关系数当样本不符合正态分布时,使用斯皮尔曼相关系数来做相关性分析,斯皮尔曼相关系数描述两个样本的数据是否在一条直线上,是描述两个样本之间是否具有相关性,以及两样本之间相关强度的指标,当相关系数的绝对值越接近于1时,代表两个样本越相关;斯皮尔曼相关系数的定义为: 其中,xi,yi代表秩次,ρ表示相关系数,当ρ值得绝对值越接近于1时,表示两个样本之间越线性相关;2、预测模型建立:随机森林算法是一种集成学习方法,随机森林是以K个决策树{hX,θk,k=1,2,...,K}为基本分类器,不同决策树之间没有关联,进行集成学习后得到的一个组合分类器,基于bootstrap方法,随机森林通常能随机地生成数百甚至上千棵分类树,从这些分类树中,把重复度最高的树选作最终的结果,由回归树θ构成组合模型{hX,θk,k=1,2,...,K},采用K棵决策树hX,θk预测值的平均值作为随机森林回归模型最终输出的预测结果;训练随机森林的过程就是训练各个决策树的过程,由于各个决策树的训练是相互独立的,随机森林的训练可以通过并行处理来实现;3、分类模型建立XGBoost以分类回归树为基分类器,采用集成学习中梯度提升的方法进行加法训练,将多个个体分类器组合成一个集成分类器;XGBoost模型的基学习器为分类回归树,对于一棵分类回归树,其复杂度由结构q和叶子节点输出值ω决定,对于一个确定的输入x,存在一个ω与之对应,表征分类回归树对当前输入的预测结果;对于一个有n个样本,m个特征的数据集D={x,y}|D|=n,xi∈Rm,yi∈R,K棵分类回归树预测最终输出为: 其中F={fx=ωqx},q:Rm→T,ω∈RT为分类回归树构成的集合;ω为叶子的重;T为叶子节点个数;q为表示每棵树的结构的向量,由样本指向相应的叶子标签;每个函数fk对应一棵独立的树结构qk和叶子权重k;每棵分类回归树的每个叶子节点对应一个连续分数值,i代表第i个结点的分数;qx是对样本x的打分,即模型预测值,对于每个样本,各个分类回归树依据不同分类规则将它分类到叶子节点中,通过累加对应叶子的分数ω来获得最终的预测结果;设训练集的一个少数类的样本数位T,那么SMOTE算法降为这个少数类合成NT个新样本,N是正整数,如果给定的N1那么算法将“认为”少数类的样本数T=NT,并将强制N=1;该少数类的一个样本i,其特征向量为xi,i∈{1,2,…T}:1从该少数类的全部T个样本中找到样本xi的k个近邻,记为xinear,near∈{1,2,…k};2从这k个近邻中随机选择一个样本xinn,再生成一个0到1之间的随机数δ1,从而合成一个新样本xi1;xi1=xi+δ1·xinn-xi将步骤2重复N次,从而可以合成N个新样本:xinew,new=1,2,…N;对全部的T个少数类样本进行上述操作,为少数类合成NT个新样本;如果样本的特征维数是2维,每个样本用二维平面上的一个点来表示,SMOTE算法所合成的一个新样本xi1相当于是表示样本xi的点和表示样本xinn的点之间所连线段上的一个点,该算法是基于“插值”来合成新样本;4、利用遗传算法、预测模型和分类模型对数据样本进行迭代寻优,找到ERα拮抗剂的生物活性得最优值:将遗传算法作为优化算法,将机器学习模型作为目标函数,将得到令人满意的结果;遗传算法流程如下:1初始化规模为N的种群,其中染色体每个基因的值采用随机数产生器生成并满足问题定义的范围,当前进化代数Generation=0;2用评估函数对种群中所有染色体进行评价,分别计算每个染色体的适应值,保存适应值最大的染色体Best;3采用轮盘赌选择运算对种群的染色体进行选择操作,产生规模同样为N的种群;4按照概率Pc从种群中选择染色体进行交叉运算,两两父代染色体交换部分基因,产生两个新的子代染色体,子代染色体取代父代染色体进入新种群,没有进行交叉的染色体直接复制进入新种群;5按照概率Pm对新种群中染色体的基因进行变异操作,发生变异的基因数值发生改变,变异后的染色体取代原有染色体进入新种群,未发生变异的染色体直接进入新群体;6变异后的新种群取代原有种群,重新计算种群中各个染色体的适应值,倘若种群的最大适应值大于Best的适应值,则以该最大适应值对应的染色体替代Best,更新最大适应值大于Best;7当前进化代数Generation加1,如果Generation超过规定的最大进化代数或Best达到规定的误差要求,算法结束,Best可表示问题的一个解;否则返回3。

全文数据:

权利要求:

百度查询: 南通大学 基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。