买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及机器学习技术领域,具体提供了一种基于机器学习的空壳企业模型识别方法及装置,构建出供机器学习的票流分析指标和六员关系图谱指标,选择黑白样本构建训练数据集和测试数据集,训练随机森林算法模型,对特征库进行相关分析,筛选优质特征指标,对黑样本团伙进行验证,识别出空壳风险企业。与现有技术相比,本发明能够实现精准监管,将识别结果传递给相关部门,共同打击空壳企业的违法行为。
主权项:1.一种基于机器学习的空壳企业模型识别方法,其特征在于,具体步骤如下:S1、根据空壳企业风险类型,分类整理不同类型、不同维度的形态特征和风险点;S2、利用税务发票数据,构建六员循环数学模型;构建六员循环数学模型时,筛选出六员分析数据,设计六员循环团伙、六员连接广度、六员分布频率、六员分布密度、密度占比和重点人数六项图谱指标,绘制六员团伙N循环结构图谱,生成六员结果表;根据重点人数、密度和广度复合型指标将黑样本划分高中低三类,初步建立四分类样本;S3、对黑样本进行穿透验证;对黑样本进行穿透验证时,其中存在六员交叉情形的,使用六员循环的排列组合算法成功抓取循环团伙,取团伙企业所在地区的发票数据,绘制发票流向关系图谱进一步验证风险等级;开发4个辅助指标,4个辅助指标为入库税款显著偏低、无房土入库、无动力发票和无设备采购发票,对所述黑样本进行扫描分析,寻找共性的典型指标,探索供机器学习的特征值;S4、根据特色六项图谱指标和辅助指标,进行风险染色,设计指标权重;根据六项图谱指标和辅助指标,进行风险染色,设计指标权重,根据指标分值和权重,对黑样本进行赋分,根据得分情况抓取四分类团伙样本,分别为:黑+++为高风险;黑++为中风险;黑+为低风险;白为无风险;S5、对特征数据进行数据预处理;S6、对特征库指标进行相关性分析;对特征库指标进行相关性分析,筛选出优质特征指标供于空壳企业识别模型的训练;相关性分析作为一种用于量化特征之间关系的方法,计算出两个变量之间线性相关程度,删减掉相关性高的其中一个;特征重要性分析使用随机森林模型拟合数据,会对数据属性列,有一个变量重要性的度量,在sklearn中即为随机森林模型的feature_importances_参数,这个参数返回一个numpy数组对象,对应为随机森林模型认为训练特征的重要程度,float类型,和为1,特征重要性度数组中,数值越大的属性列对于预测的准确性更加重要;特证贡献度分析是对单个样本的特征重要性进行分析,通过SHAP值选择对模型预测更为重要的特征;S7、根据完成训练结果,对黑样本团伙进行验证,依据验证结果进行模型修正。
全文数据:
权利要求:
百度查询: 浪潮软件科技有限公司 一种基于机器学习的空壳企业模型识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。