首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:新疆大学

摘要:基于DBSCAN‑cGAN‑XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法,其属于用户画像生成的技术领域。该方法包括:首先,利用DBSCAN算法对提取出的稀少违规行为标签样本数据进行聚类处理,提取出簇内样本与噪声样本;然后,采用条件采样生成对抗网络模型cGAN,指定生成样本的条件满足特征的逻辑,对提取出的簇内样本进行扩充;最后,使用重新构建后的数据集对XGBoost算法进行训练,并完成违规行为类型数据的预测。再选取合适的阈值,生成预测标签,结合基本属性和行为属性标签生成的累次违规人员用户画像。和基准模型比较在数据平衡、准确率提升、用户画像构建等多个方面取得了突出的贡献。首次在不平衡数据集上实现累次违规人员用户画像,提供了准确、全面、直观的数据信息。

主权项:1.基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法,其特征在于,包括以下步骤:S1.数据预处理1对字符型特征数值化首先将数据集中的字符型特征与标签转换为数值型;训练集和测试集中Ethnicity特征字符型数据表示为数值型;该属性共包括6个变量,用0~5依次表示6个变量;2特征相关性分析和特征选择本数据集全部转化成了数值特征,将使用Pearson相关系数来衡量特征之间的相关性;3归一化处理由于各个特征属性之间的数值相差较大,故对所有特征进行数值归一化处理;采用min-max方法将数据集中不同特征的取值转换到[-1,1]中,不改变其原始信息;转换表达式为 其中,y为特征值,ymin为特征值中的最小值,ymax为特征值中的最大值;4样本划分再将处理后的数据集按比例进行数据划分,提取出训练集中的少数类违规行为样本;S2.DBSCAN噪声样本提取:采用DBSCAN对提取出的少数类样本分别聚类,划分成离群样本和簇内样本,分别提取游离在簇外的噪声样本和簇内样本;模型使用XGBoost算法对样本的特征权重进行计算,赋予每个特征维度一个权重值;接着随机选取样本A,计算样本A到训练集中其他样本点的加权欧式距离,根据邻域大小和最小样本数检索样本A的所有密度可达点;将每个特征维度的权重引入到欧式距离的计算,加权的欧式距离为: 其中,dx,y:加权欧式距离;xi和yi:样本A和其他样本点的第i个特征值;wi:第i个特征的权重,对应于每个特征维度的权重,用于计算加权欧式距离;n:特征维度的数量;如果样本A是一个核心点,此过程就产生一个关于样本A的簇;如果样本A是一个边界点并且样本A没有密度可达点,将访问下一个样本;每个簇由样本相关性高的样本聚集在一起,使用DBSCAN对分离出的少数类样本进行聚类,通过调整核心点周围邻近区域的半径和邻近区域内最少包含样本数,使样本划分为离群样本和簇内样本;S3.cGAN样本生成:采用条件生成对抗网络cGAN对各少数类数据样本中的簇内样本和噪声样本进行数据扩充,使其在数据集中比例均衡,并保证其样本内部的多样性和逻辑性;cGAN模型中生成器学习真实样本的分布规律,在给定服从一定分布的随机噪声的情况下,生成无限逼近起初样本的假样本,通过判别器区分真假,不断对抗训练迭代优化;在训练过程中,生成器不断提升伪造数据欺骗判别器,而判别器努力学习区分真假数据的能力;二者不断迭代优化,最后达到动态均衡;生成器最终完成数据扩充并生成仿真样本,整个模型的目标函数为式中: Dx为判别器辨别从训练集中抽取的簇内样本为真的概率;1-DGz为判别器辨别由生成模型生成的簇内样本为伪造样本的概率;x~Pm为x取自训练数据中簇内样本的分布;z~Pz为z取自生成模型G生成簇内样本的数据分布;VD,G为损失函数,优化DX时让VD,G最大,优化GX时让VD,G最小,最终求出最优解的生成模型;根据生成模型对样本数据进行扩充;S4.XGBoost集成分类器样本预测:将cGAN生成后的数据样本与原始训练集合并成为新的训练数据集,训练得到最优分类模型,并采用测试集完成对各类型累次违规人员的预测;XGBoost的目标函数Obj为: 式中:yi为第i个样本的实际违规行为类别;为第i个样本的预测违规行为类别;为损失函数,表示预测违规行为类别与实际违规行为类别的差异;n为训练集样本数量;其中的是计算出预测样本的违规行为类别和真实样本违规行为类别的差值;为正则化项,其计算过程为: 式中:T为树中叶子节点的个数,表示每个分支最后预测的违规行为类别;w为该叶子节点所获得的分,γ和λ分别控制叶子节点的个数和分数,以防止过拟合。新生成的树会拟合上一次对违规行为类型预测的残差,当生成T棵树后,模型对第i个样本的违规行为类型预测值为此时,可以将目标函数改写成: 再利用ft=0处的泰勒二阶展开式找到使ft最小化的目标函数,去除常数项并优化损失函数项,即: 式中:gi为一阶导数;hi为二阶导数; 对于第t棵树来说,式7中为前t-1棵树的预测类别与实际违规行为类别的差异值,可直接去掉;定义分别表示符合叶子节点j预测的违规行为类别所包含样本的一阶、二阶偏导数之和;故目标损失函数改写成: 此时目标函数为关于叶子节点分数wj的一元二次函数,求最优解并将其代入到目标函数中,如式11所示: 得到最优分类模型,对测试集完成各类型累次违规人员的预测。S5.累次违规人员用户画像:使用XGBoost模型预测违规行为概率,根据决策差异成本曲线,综合考虑成本代价和命中率的关系选取阈值,把标签按照预测概率值分为两类:预测概率值大于等于阈值的归类为再次违规,否则为不再违规,作为预测标签;再结合基本属性标签和行为属性标签生成的累次违规人员用户画像。

全文数据:

权利要求:

百度查询: 新疆大学 基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

累次相关技术