买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于贝叶斯分类的行业编码选定方法。该方法包括获取用户提交的相关申请资料;从申请资料中提取企业的基本信息;判断企业是否为新的行业客户,是则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则,通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;若四级行业编码推荐数据选项不被用户认可,扩大推荐范围至选定确认成功,或由客户对系统推荐的行业编码进行校验确认,无误则落库存储。本发明解决了跨行业经营的企业的主行业分类计算问题和存量历史数据的校验和修复问题,提升客户对行业编码的定位效率和准确度,逐步提升对新客群的行业编码分类能力。
主权项:1.一种基于贝叶斯分类的行业编码选定方法,其特征在于,包括:步骤1、获取用户在申请相关业务时提交的相关申请资料;步骤2、从所述申请资料中提取企业的基本信息;步骤3、基于提取的企业的基本信息判断所述企业是否为新的行业客户,若为新的行业客户,则跳转至步骤6,否则,进入步骤4;步骤4、通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;步骤5、若所述四级行业编码推荐数据选项不被用户认可,则基于企业的经营范围,给出过滤后的概率最高的A个四级行业编码推荐数据选项供客户选择,若仍未被用户认可,则回退至三级行业编码推荐数据选项供客户选择,若仍未被用户认可,则由用户选择继续回退直至选定确认成功或跳转至步骤6;步骤6、若为新的行业客户,则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则由客户对系统推荐的行业编码进行校验确认;步骤7、用户确认选定或校验确认的行业编码无误后,通过整个业务办理流程后落库存储;所述步骤4具体包括:将当前历史数据中的每条经营范围记录作数据清洗提取后,统计第i种经营范围记录在行内的指定类别细项的统计数量,计算第i种经营范围记录在当前数据集下的先验概率为: ;其中,M代表经营记录细项的总数;统计当前历史数据中的每个经营四级行业编码的数量,将出现的频率映射为四级分类编码的概率,具体如下: ;其中,N代表四级行业编码的总数,代表第i种行业编码在当前数据集的出现次数;根据企业经营范围的内容解析结果给定所述企业的经营范围,其中,n为大于2的自然数;在行业编码固定的情况下,计算当前给定的经营范围的条件概率,其中;根据当前给定的经营范围的条件概率计算行业编码的概率,具体如下: ;其中,为在确认行业编码为的情况下,这个组合的条件概率,为在确认行业编码为的情况下,这个组合的条件概率,为第种经营范围的四级分类编码的概率,;计算,并作为最大概率的四级行业编码推荐数据选项,为求自变量最大的函数;在计算出行业编码的概率后,将的概率进行归纳整理成三级行业编码概率,具体如下: ;其中,为第i类四级行业编码对应的三级行业编码概率;对所述三级行业编码概率累加构建二级行业编码概率,具体如下: ;其中,为第i类四级行业编码对应的二级行业编码概率。
全文数据:
权利要求:
百度查询: 江苏苏商银行股份有限公司 一种基于贝叶斯分类的行业编码选定方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。