首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于R-CNN-GA的抗乳腺癌候选药物分类预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:内蒙古工业大学

摘要:一种基于R‑CNN‑GA的抗乳腺癌候选药物分类预测方法,包括:基于RFE和RF的主特征提取,提取原始数据中对生物活性影响重要性最强的主要特征;基于CNN_FC的ERα生物活性的定量预测方法,通过选取主要的特征变量来预测化合物对应的IC50和PIC50值;基于CNN_FC的多标签分类预测方法,对数据中化合物的Caco‑2、CYP3A4、hERG、HOB、MN特性进行分类预测;以及基于遗传算法的多目标优化模型,优化选取有益的特征变量及其最优取值范围。本发明高精度地预测了IC50和PIC50的值,并对原始特征进行指标分类,并结合遗传算法进行优化,进一步选取抗乳腺癌候选药物有益的特征及其最优取值范围。

主权项:1.一种基于R-CNN-GA的抗乳腺癌候选药物分类预测方法,其特征在于,包括如下步骤:步骤1,将原始抗乳腺癌候选药物数据集采用递归特征消除和随机森林相结合的方式进行主要特征提取,得到对生物活性影响重要性最强的20个主要特征,并根据数据特点,采用最大最小归一化方法对选取的20个主要特征进行数据归一化操作;步骤2,将步骤1中归一化后的数据作为模型输入,输入至ERα生物活性的定量预测模型中,获得每个作用于所述ERα生物活性的化合物的IC50值和PIC50值,其中所述定量预测模型采用CNN_FC模型架构;步骤3,根据原始抗乳腺癌候选药物数据集中的所有特征,采用基于CNN_FC的多标签分类预测方法对数据中化合物的Caco-2、CYP3A4、hERG、HOB、MN特性进行分类预测,获得所有作用于所述ERα生物活性的化合物的分类结果;步骤4,计算步骤1中获得的20个主要特征与单一随机森林降维得到的20个特征的交集,并结合步骤3获得的分类结果,线性分析交集中特征对ADMET和PIC50值的影响正负相关性,取得对PIC50值影响正相关的特征,采用遗传算法计算优化后的取值范围,并结合lingo软件对ADMET和PIC50值之和进行线性规划,获得对应特征的取值,以此对候选药物选取提供数据支撑;所述步骤1中,利用递归特征消除和随机森林相结合的方式进行主要特征提取的方法如下:步骤1.1,将原始数据中需要筛选的729个特征输入至随机森林分类器中,计算每个特征的重要性,利用交叉验证方法得到初试特征的分类精度,移除重要性最低的特征;步骤1.2,递归执行步骤1.1,直到剩余特征个数为1,以此获得每个特征重要性排序,取前最重要的20个主要特征,通过计算其相关性及原始特征变量列别划分,验证特征提取有效性;所述步骤2中,所述ERα生物活性的定量预测模型是在CNN_FC模型架构基础上,添加Dropout层和BatchNormalization,并采用Relu函数作为激活函数,同时结合Adam优化算法提高模型整体的运算速度,获得IC50和PIC50预测值;所述步骤3包括:步骤3.1,将包含729个特征的原始抗乳腺癌候选药物数据使用最大最小归一化方法进行数据归一化操作;步骤3.2,归一化后的数据作为输入数据,输入至CNN_FC模型中,该模型由一层CNN、四层FullConnectedLayer层、一个Dropout层和BatchNormalization层构成,并采用Relu函数作为激活函数,加快模型的收敛速度,并在最后一层采用sigmoid激活函数将数据映射在0,1之间;步骤3.3,使用基于马修斯相关系数的自适应阈值判断预测标签具体的分类结果,马修斯相关系数MCC计算公式如下: 其中:TP是真阳性数量;TN是真阴性数量;FP是假阳性数量;FN是假阴性数量;所述步骤4中,采用基于遗传算法的优化方法如下:步骤4.1,采用单一随机森林算法求解对ADMET影响最好的前20个特征,即分子描述符,并选择与步骤1中求得的20个主要特征相同的m个特征,m≤20;步骤4.2,将PIC50作为因变量,计算m个特征与PIC50间的皮尔森系数,保留皮尔森系数为正相关的特征变量,皮尔森系数计算公式如下所示: 其中:x和y为两个特征变量;为特征变量x的均值;为特征变量y的均值,r值大于0时,表示该两个特征变量间具有正相关性;r小于0时,表明该两个特征变量间具有负相关性;步骤4.3,使用SPSS软件对步骤4.2中保留的正相关特征变量进行回归分析,得到他们之间的函数关系,函数关系如下式所示: 其中:y1、y2分别表示PIC50的值与ADMET正相关性的值;x1、x2、x3分别表示MDEC-23、MLFER_A、minHBa的值;步骤4.4,使用遗传算法,将步骤4.3中的两个函数分别作为目标函数进行迭代,获得两个目标函数的取值范围;步骤4.5,使用lingo软件对步骤4.2中的正相关性特征做线性规划,获得正相关性特征变量的最优取值。

全文数据:

权利要求:

百度查询: 内蒙古工业大学 一种基于R-CNN-GA的抗乳腺癌候选药物分类预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。