首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于XGBoost算法的电信互联网诈骗识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海欣方智能系统有限公司;上海欣方软件有限公司

摘要:本发明公开了一种基于XGBoost算法的电信互联网诈骗识别方法,包括步骤:对原始电信互联网数据进行加密处理;处理手机上网及位置移动数据,提取互联网数据上网特征;采用K‑Means降采样对特征数据集进行采样,形成最终数据集;初始化模型参数,使用测试集进行验证,并计算出模型的精准率,召回率,F1分数,对模型进行评估;获得最优的XGBoost模型,并采用pickle将模型序列化,保存到服务器;采用pickle将模型反序列化,并用Flask框架构建API;测通话记录到达时,将数据输入到XGBoost预测模型中,模型预测后,将结果返回。本发明采用XGBoost机器学习算法能准确识别电信互联网诈骗,有效解决公安判案过程中误判和漏判等案件问题。

主权项:1.一种基于XGBoost算法的电信互联网诈骗识别方法,其特征在于,包括步骤:S1对原始电信互联网数据进行加密处理,人工研判并确定训练样本正负分布比例;S2清洗、处理手机上网及位置移动数据,提取互联网数据上网特征;S3采用K-Means降采样对特征数据集进行采样,形成最终数据集,并将最终数据集分类成训练集和测试集;步骤S3具体包括:S31对于多数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到k近邻,欧式距离d计算如下所示: 其中,x1i和x2i分别为多数类样本中的任一样本和少数类样本中的任一样本;S32对于每一个多数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn;S33对于每一个随机选出的近邻xn,进行随机线性插值,分别与原样本构建新的样本;S34利用K-Means下采样方法对大类样本聚类,形成与小类样本个数相同的簇类数,从每个簇中随机抽取单个样本与涉诈样本形成平衡的正负样本做为最终数据集;S4初始化模型参数,使用测试集进行验证,并计算出模型的精准率,召回率,F1分数,对模型进行评估;S5采用网格搜索获得最优的XGBoost模型,并采用pickle将模型序列化,保存到服务器;S6采用pickle将模型反序列化,并用Flask框架构建API,将模型以接口的方式部署上线;S7通话记录到达时,调用API接口,将数据输入到XGBoost预测模型中,模型预测后,将结果返回;步骤S2中:所述数据集为电信用户上网及位置移动数据,所述电信用户上网及位置移动数据包括用户浏览网站数据、域名解析数据及用户IM行为数据;步骤S2中:上网特征的特征维度为34维,分别为x1,x2,x3……x34,具体为:X1为im_type:IM账号类型,QQ或微信;X2为im_account:IM账号;X3为login_logout_frequency:一段时间内IM账号的登录登出频数;X4为peek_frequency:7天内IM账号添加账号的峰值;X5为long_term_frequency:一段时间内每天添加账号数量的方差;X6为short_term_frequency:最近1天内IM账号添加账号操作的频数;X7为media_operation_ratio:IM账号多媒体操作占总操作的比例;X8为video_frequency:IM账号收发视频占总操作的比例;X9为active_time_period:以IM账号为单位统计每小时内各类操作的频数,归一化处理后,采用one-hot编码表示;X10为device_type:IM账号的登录设备:android客户端、IOS客户端、PC;X11为client_version:IM客户端的版本,拆分为主版本号和次版本号;X12为im_account_on_device_day:以手机号为单位,统计单设备在1天内共计登录IM账号的个数;X13为im_account_on_device_now:以手机号为单位,统计最大同时在线IM账号个数;X14为base_station_location:基站编号;X15为signal_quality:信号质量,分为优、良、差三个等级,采用one-hot编码;X16为os_version:手机操作系统的版本号;拆分为主版本号和次版本号;X17为im_traffic_ratio:IM通信流量占全部流量的比例;X18为bank_traffic_ratio:访问支付类网站流量占全部流量的比例X19为shop_traffic_ratio:访问购物类网站流量占全部流量的比例;X20为up_down_traffic_ratio:统计各时段的上下行流量比例;X21为gps_info:GPS信息;X22为roaming_type:用户漫游类型,国际漫游、省际漫游、省内漫游或本地;X23为in_out_frequency:呼入呼出比;X24为hang_up_ratio:挂断方向;X25为region_distribution:被叫号码归属地分布;X26为same_phone_ratio:呼叫同一号码的频次;X27为dev_bank_ratio:异常设备访问支付类网站的频数;X28为dev_shop_ratio:异常设备访问购物类网站的频数;X29为dev_domain_ratio:异常设备访问不良网址的频数;X30为victim_bank_ratio:潜在受害者访问支付类网站的频数;X31为victim_shop_ratio:潜在受害者访问购物类网站的频数;X32为victim_domain_ratio:潜在受害者访问不良网址的频数;X33为type:手机卡、QQ或微信的类型,包括1:无;2:虚假贷款;3:冒充快递退款;4:网络刷单;5:网络赌博;X34为number:上网手机号码。

全文数据:

权利要求:

百度查询: 上海欣方智能系统有限公司 上海欣方软件有限公司 一种基于XGBoost算法的电信互联网诈骗识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。