买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国金证券股份有限公司
摘要:本发明提供了一种行业分类方法及系统,包括:步骤S1:根据预设要求构建表征经济领域的特定资本市场行业分类框架;步骤S2:在构建的行业分类框架的基础上,基于特定资本市场上市公司的客观财务数据,将满足预设条件的主营业务数据进行映射归类,获得特定资本市场上市公司行业分类结果。本发明通过采用客观标准及自动化模块工具进行行业框架构建及个股行业分类,显著减少了行业分类过程中的人工工作量,并提供了明显更具时效性、精细度和准确度的行业分类结果。
主权项:1.一种行业分类方法,其特征在于,包括:步骤S1:根据预设要求构建表征特定经济领域的特定资本市场行业分类框架;步骤S2:在构建的行业分类框架的基础上,基于特定资本市场上市公司的客观财务数据,将满足预设条件的主营业务数据进行映射归类,获得特定资本市场上市公司行业分类结果;所述步骤S1包括:步骤S1.1:基于全社会行业分类框架构建一级行业框架;并将一级行业框架与第一产业、第二产业、第三产业相对应;步骤S1.2:利用自然语言处理模型,使用无监督学习的方式进行二级行业分类框架的预分类搭建,在一级行业框架的基础上,基于预分类二级行业框架根据预设要求构建二级行业框架;步骤S1.3:在一级行业框架、二级行业框架的基础上,根据预设要求构建三级行业框架;所述步骤S1.2采用:步骤S1.2.1:通过Python构建爬虫或API接口,提取特定资本市场上市公司满足预设条件的近年内所有的定期公告;通过NLP正则化表达式解析或API接口调用方式,获取定期公告中相关业务介绍形成训练语料;步骤S1.2.2:对训练语料进行预处理,包括:分词处理、停用词去除、N-gram词语合成、文本向量变化、对词语进行词频-逆文档频率TF-IDF加权; TF-IDF权重=词频TF×逆文档频率IDF步骤S1.2.3:使用自然语言处理模型,对预处理后的训练语料进行规定个数的二级行业预分类,得到预分类二级行业框架;步骤S1.2.4:在一级行业框架的基础上,基于预分类二级行业框架结合预设要求构建二级行业框架;所述步骤S2采用:步骤S2.1:采集特定资本市场上市公司的财务数据,并对采集到的特定资本市场上市公司的财务数据进行预处理,得到预处理后的财务数据;步骤S2.2:逐个建立上市公司各主营业务产品与对应三级行业的映射关系;步骤S2.3:将映射到同一项三级行业的主营业务数据进行汇总;步骤S2.4:基于主营业务汇总数据进行上市公司的模块化归类;所述步骤S2.2采用:步骤S2.2.1:基于数据库对比查询上市公司公告中提取的最新主营业务字符串是否与其历史数据存在不匹配的情况,并标记该数据;步骤S2.2.2:在原始映射关系字典中,对新主营业务字符串进行模糊匹配,自动建立与三级行业分类的映射关系;所述步骤S2.3采用: 所述步骤S2.4采用:步骤S2.4.1:若对应行业A营收合计占比大于60%,则将该上市公司归类至行业A;步骤S2.4.2:若对应行业A营收合计占比大于50%,且不存在行业B利润合计占比大于70%,则将该上市公司归类至行业A;步骤S2.4.3:若对应行业A营收合计占比大于50%,且存在行业B利润合计占比大于70%;则若行业B营收合计占比大于40%,将该上市公司归类至行业B,否则将该上市公司归类至行业A;步骤S2.4.4:若对应行业A营收合计占比大于40%,且不存在行业B利润合计占比相比行业A超过20%,则将该上市公司归类至行业A。
全文数据:
权利要求:
百度查询: 国金证券股份有限公司 行业分类系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。