买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏大学
摘要:本发明公开了一种基于混合采样的不平衡数据分类方法。包括步骤:输入不平衡数据集,并将其划分为训练、验证和测试数据集;将训练数据集分为正类和负类数据集;在负类数据集中,首先计算每个样本的分类难度,再利用层次聚类将其划分为多个子簇,在各个子簇中抽取多数类样本;在正类数据集中,利用样本的近邻信息将样本分为安全边界异常样本,并计算安全边界类样本的选择权重,最后在选择的样本间进行线性插值生成正类样本;将过欠采样的子集合并、构成平衡数据集并在其基础上训练基分类器;最后通过平均加权策略结合多个基分类器构成集成分类器。本发明能够在保证总体准确率的同时,有效提高不平衡数据集中少数类样本的识别效果。
主权项:1.一种基于混合采样的不平衡数据分类方法,其特征在于,该方法包括以下步骤:步骤1:将数据集D划分为训练集Dtrain、验证集Dtrain和测试集Dtest;步骤2:将训练集Dtrain中的样本分为正类少数类样本Nmin和负类多数类样本Nmaj;步骤3:在负类多数类样本Nmaj中计算每个样本的分类难度,将其划分为难易分类样本集;步骤4:在难易样本集中分别进行层次聚类,将它们划分为多个子簇;步骤5:在各个子簇中依据样本难度抽取多数类样本,保证各个欠采样子集中的难度值一致;步骤6:在正类少数类样本Nmin依据每个样本的近邻信息,将它们分为安全边界异常样本;步骤7:计算安全边界类样本的选择权重;步骤8:通过权重选择参考样本,使用具有近邻样本规则约束的SMOTE算法进行采样;步骤9:将步骤5和步骤8中采样的子集合并构成一个平衡数据集;步骤10:选择决策树DT模型作为基分类器,每个基分类器都针对一个平衡数据集进行训练;步骤11:通过平均加权策略结合多个基分类器构成集成分类器;步骤12:使用测试集Dtest对步骤11得到的集成分类器进行性能评估。
全文数据:
权利要求:
百度查询: 江苏大学 一种基于混合采样的不平衡数据分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。