买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江南大学
摘要:本发明属于人工智能算法应用‑多标签亚细胞定位预测方法,涉及一种基于深度迁移学习的多标签亚细胞定位预测方法。过程如下:首先,对原始数据进行数据清洗以获得数据集1和数据集2,去除冗余信息,提高模型效率。接着,采用MDNDO和SMDU重采样算法对不平衡数据集进行处理,确保模型在各类别样本上都能获得良好性能。本发明基于AlexNet,重新修改了输出层的网络结构,充分利用了已有结构,捕获特征信息,最终在输出层输出预测结果。本发明进一步引入了SHAP算法,量化每个特征对模型预测结果的贡献度,帮助用户更好地理解模型的工作原理和决策依据。
主权项:1.基于深度迁移学习的多标签亚细胞定位预测方法,其特征在于,步骤如下:第一步:数据处理;该阶段包括训练数据和测试数据的划分以及数据格式的转换;1.1数据集的处理方法1.2数据转换通过手动编写的python脚本截取序列的前35和后35个核苷酸作为图片输入来提取特征;第二步,包含利用MDNDO进行上采样、基于SMDU进行下采样2个步骤;2.1MDNDO上采样算法输入:原始k类训练样本:每类样本的数量:nk输出:合成的Mk个训练样本:1:首先输入第k类原始训练样本以及第k类样本的数量,基于A-1,C-2,G-3,T-4对序列编码2:计算每个样本的协方差矩阵的对角矩阵: b=sizec,2;z=zerosb,b;m=zeros2*b,1;3:计算z矩阵,利用多维正态分布合成样本,其中z矩阵代表的是x的自相关矩阵相关系数矩阵,以cj1表示需要生成的数据的均值,0.05代表其概率因子:zj1,j2=0.05*cj1^2;提取z矩阵的对角线元素并将其赋值到t矩阵的第i列:t:,i=diagz;生成对角矩阵并存储到t1中:t1{i}=diagt:,i;4:生成kp个合成样本: 5:找到每个合成样本与所有其他样本的最小范式数: m1i,j1=minnn1;6:根据计算结果重新升序排列7:选取最优的合成样本并返回2.2SMDU下采样算法输入:g类的原始训练样本:每类样本的数量:ng输出:欠采样后的Mk个训练样本:1:输入类的原始训练样本,样本数;2:使用公式:A-1,C-2,G-3,T-4对序列编码,对每个类的矩阵进行标准化处理,对每列进行标准化;3:归一化Xg矩阵的所有列;wi,k=Xgi,kg对于每个样本i,归一化矩阵Xg的所有列,得到变换矩阵w:wi,k=Xgi,kmaxXg:,k4:计算样本之间的马氏距离,并构建距离矩阵;D1=pdistw,"mahal";D=squareformD1;5:忽略自身距离,将对角线元素设置为零;Di,j=0;6:提取非零元素并进行升序排序;D1=nonzerosD;D2=sortD1,'ascend';7:选择最相似的样本对;删除每对样本中的一个,减少样本数量8:计算并返回欠采样后的样本第三步,在这一阶段中,基于AlexNet迁移学习方法构建一个强大且鲁棒性高的多标签分类模型;整个过程涉及对输入数据的特征提取和输出层分类器的训练,以优化整体预测性能;第四步:可解释分析4.1SHAP算法在SHAP算法中所有特征都被视为“贡献者”,通过计算每个“贡献者”的Shapley值来衡量其对最终输出值的影响,公式如下:yi=ybase+fxi,1+fxi,2+…+fxi,k式中:代表第i个样本的第k个特征;fxi,k代表xi,k的Shapely值,ybase代表整个模型的基线;yi代表第i个样本的预测值;直观上,当fxi,k0说明该特征对预测结果有正向作用;反之,当fxi,k0时,说明该特征对预测结果有反向作用;4.2特征重要性计算。
全文数据:
权利要求:
百度查询: 江南大学 基于深度迁移学习的多标签亚细胞定位预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。