首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Hadoop系统的电费回收风险预警方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国网山西省电力公司大同供电公司

摘要:本发明提供一种基于Hadoop系统的电费回收风险预警方法,属于电费回收风险预警技术领域;所要解决的技术问题为:提供一种基于Hadoop系统的电费回收风险预警方法;解决该技术问题采用的技术方案为:针对多源数据进行采集、预处理和数据存储操作:通过离群分析发现异常用户,并对异常用户进行用户画像刻画;基于稀疏性分析,识别冗余的特征和数据,进行冗余剪枝操作;基于对多源电力数据的预处理,采用基于粒子密度的离群挖掘方法,先对属性权重进行度量,结合粒子密度分布,分别计算每个数据点的离群程度,挖掘用户电力数据中的异常数据点,即判断为异常用电用户;本发明应用于电费回收风险预警。

主权项:1.一种基于Hadoop系统的电费回收风险预警方法,其特征在于:包括如下的预警分析步骤:步骤一:针对多源数据进行采集、预处理和数据存储操作:步骤1.1:采集与电费回收风险相关的多源数据:步骤1.2:对收集到的原始数据进行预处理操作;步骤1.3:将预处理后的数据上传至Hadoop并行环境下的分布式文件系统HDFS中进行存储;步骤二:通过离群分析发现异常用户,并对异常用户进行用户画像刻画:步骤2.1:基于稀疏性分析,识别冗余的特征和数据,进行冗余剪枝操作:步骤2.1.1:针对粒子密度分布进行计算,以属性取值作为粒子计算单位,计算粒子密度分布值Lij,计算公式为: 式中:a表示数据Oi上的第j个属性值,Rij是与数据Oi相似的点组成集合,|Rij|表示集合的模,Cij表示集合Rij在a上的中心值;步骤2.1.2:基于粒子密度分布,通过设置阈值ε,将粒子的密度分布情况转化为粒子稀疏度Dij,计算公式为: 式中:Lij为上式的粒子密度分布值,ε为人为设置阈值;定义当数据Oi上所有属性取值的粒子稀疏度Dij均为0时,则该数据被认定为冗余量,进行剪枝;步骤2.2:基于对多源电力数据的预处理,采用基于粒子密度的离群挖掘方法,先对属性权重进行度量,结合粒子密度分布,分别计算每个数据点的离群程度,挖掘用户电力数据中的异常数据点,即判断为异常用电用户;计算数据Oi的离群程度OutOi,计算公式为: 式中:Dij和Lij为上式粒子稀疏度和粒子密度分布值,Wij表示数据点Oi在第j维属性上的权重值,可由Lij表示的函数计算而得;将计算出的数据点离群程度按照从大到小排序,选出OutOi最大的m个数据点,即为要挖掘出来的异常用户点;步骤2.3:基于用户行为分析,对挖掘出的异常用户进行用户画像刻画,构建异常用户特征体系:步骤2.3.1:以用户用电欠费行为作为依据,分析影响用户欠费的行为特征;采用数据探索方法,对与欠费相关特征进行初步探索性分析,根据行业类型,统计各月用户欠费数据,分析用电类型与欠费的对应关系;以全年时间为跨度单元,统计各月份内的应收违约金和实收违约金;步骤2.3.2:基于极致梯度提升树XGBoost的特征融合方法,获得特征融合,构建特征体系;步骤三:提取异常用户特征,通过聚类算法实现对异常用户的归类,进行风险等级预测:步骤3.1:提取异常用户组特征:提取重要欠费特征并度量特征重要程度,在步骤2.3.2特征融合的基础上,得出各特征的重要程度;步骤3.2:给出各特征组内的特征重要程度,构成子空间聚类的属性子空间,在该特征子空间的基础上,采用多目标聚类子空间聚类算法,通过度量所有电力用户在异常特征子空间中与异常用电行为的近似程度来识别异常行为;步骤3.3:针对电力欠费风险进行预测:将电力欠费风险划分为四个等级,分别为:高风险、中风险、低风险、无风险,供电企业需根据用电用户的风险等级采取不同的措施。

全文数据:

权利要求:

百度查询: 国网山西省电力公司大同供电公司 一种基于Hadoop系统的电费回收风险预警方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。