买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第十五研究所
摘要:本发明属于数据处理技术领域,提供一种股东增减持信息抽取处理方法和系统,该方法通过获取与股东增减持信息相关的指定文件,将指定文件转换成文本文件,并对各文本文件进行预处理;确定抽取关键词,并确定目标格式;对预处理后的文本文件进行信息结构抽取,得到子信息表;对预处理后的文本文件进行表格识别和文本识别,得到实体列表,对实体列表进行实体确认,得到最终的结构信息表;接收待处理文本段,采用自动抽取模型对所述待处理文本段进行自动识别,输出股东信息文本,根据所得到的结构信息表对所输出的股东信息文本进行匹配确认,得到股东信息表格。本发明能够精确抽取股东增减持信息,进而能够有效实现对股东增减持信息的结构化精准抽取。
主权项:1.一种股东增减持信息抽取处理方法,其特征在于,包括:获取与股东增减持信息相关的指定文件,将指定文件转换成文本文件,并对各文本文件进行预处理,所述指定文件包括HTML文件、XML文件,HTML文件内容包含表格数据和文本数据;通过计算信息重要度,确定以下抽取关键词,并确定目标格式:公告ID、股东全称、股东简称、变动截止日期、变动价格、变动数量、变动后持股数和变动后持股比例;所述目标格式包括公告标题匹配规则、股东名称匹配规则、增减持股数和比例匹配规则;根据所确定的抽取关键词以及所确定的目标格式,对预处理后的文本文件进行信息结构抽取,得到子信息表;对预处理后的文本文件进行表格识别和文本识别,将使用同一股东、同一时间的增减持股数和或同一公司参数得到实体列表,将包含上述参数的子信息表进行合并拼接以得到融合后的实体列表,对实体列表进行实体确认,得到最终的结构信息表;接收待处理文本段,采用自动抽取模型对所述待处理文本段进行自动识别,输出股东信息文本,根据所得到的结构信息表对所输出的股东信息文本进行匹配确认,得到股东信息表格;在采用预建立的自动抽取模型对所述待处理文本段自动识别之前,定义变更记录识别函数以用于识别一段待处理文本段中变更记录信息;根据所提取的股东全称和股东简称以及股份购买时间或出售时间确定所涉及的股东人员,进而进一步根据该股东人员追踪确定所述股东人员在上市公司中的持股情况和变动。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第十五研究所 一种股东增减持信息抽取处理方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。