PDF表格提取方法专利

发布时间：2018-11-24 17:04:58 来源：龙图腾网导航：龙图腾网> 最新专利技术> PDF表格提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京述酷信息技术有限公司

申请日：2017-02-22

公开（公告）日：2018-04-13

公开（公告）号：CN106897690B

专利技术分类：

专利摘要：本发明技术方案公开了一种PDF表格提取方法，对PDF文档按页码进行解析，获取所有的图像数据、第一线条数据和字符数据，采用图像识别算法对图像数据按页码依次进行处理，从具有表格数据的图像数据中获得其表格数据对应的第二线条数据；采用图像算法对第一线条数据和第二线条数据按页码依次进行处理，获得具有表格行数据和列数据的表格框架数据；采用聚类算法对字符数据进行聚类处理，获得具有字符串集合的文本数据；经由最终所有表格框架和所有文本数据得到PDF文档中所有的表格数据。本发明对PDF文档中表格提取的方法提高了PDF文档中表格提取的准确率和效率，能得到更准确的表格数据，适用于对表格数据提取的准确率和效率要求更高的领域。

专利权项：一种PDF表格提取方法，其特征在于，该方法包括：步骤A，对PDF文档进行解析，获取图像数据、第一线条数据和字符数据；步骤B，采用图像识别算法对经由步骤A获取的图像数据进行处理，从具有表格数据的图像数据中获得其表格数据对应的第二线条数据；步骤C，采用图像算法对经由步骤A获得的第一线条数据和经由步骤B获得的第二线条数据分别进行处理，获得具有表格行数据和列数据的表格框架数据；步骤D，采用聚类算法对经由步骤A获得的字符数据进行聚类处理，获得具有字符串集合的文本数据；步骤E，经由步骤C获得的表格框架数据中的表格行数据和列数据，得到对应的表格单元格，将表格单元格与步骤D获得的文本数据中的字符串集合相匹配，获得PDF文档中的表格数据；其中，步骤A至步骤E中的各处理均是按页码依次进行处理；步骤A获取的图像数据、第一线条数据、字符数据及步骤B获取的第二线条数据均以页码为关联词存储到字典的PDF数据单元中，步骤C获得的表格框架数据以页码为关联词存储到字典的表格数据单元中，步骤D获得的文本数据以页码为关联词存储到字典的文本数据单元中；步骤C具体包括：步骤C1，按页码依次从字典的PDF数据单元中获取当前页的第一线条数据和第二线条数据的垂直线条数据和水平线条数据；步骤C2，对当前页的第一线条数据和第二线条数据的线条数据进行图像算法处理，获得当前页的表格数量及每个表格对应的上下边位置数据、左右边的位置数据、每行上下边位置数据和每列左右边的位置数据，即获得具有表格行数据和列数据的当前页的表格框架数据，并将其以页码为关联词存储到字典的表格数据单元中。

百度查询：南京述酷信息技术有限公司 PDF表格提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关链接：龙图腾网专利信息网专利交易龙图腾专利交易网 IPTOP知识产权网

相关技术

一种建筑材料分类回收装置

便携式充电桩

一种垃圾筛选设备

一种确定刮碳环和缸盖之间的预留热间隙的方法和发动机

基于PC-TCN和迁移学习的轴承寿命预测方法

一种曲轴总成及其涡旋压缩机

发动机飞轮壳强度计算和评价方法及装置

一种基于智能算法的高Q值硅基光子晶体纳米束微腔

一种直角母线排线夹

应用于脑卒中病人的可分类延续性护理包

一种上眼睑提肌用辅助装置

一种工位输送链

方法相关技术

光刻方法、刻蚀方法_中芯国际集成电路制造（上海）有限公司_201110357991.5

设备、方法、制造方法_利萨·德雷克塞迈尔有限责任公司_201810625293.0

加密方法,解密方法和确认方法_佳能株式会社_97110913.3

加密方法,解密方法和确认方法_佳能株式会社_97110913.3

复用方法、分离方法_三菱电机株式会社_01822765.1

发光装置、照明方法、设计方法、驱动方法、制造方法_西铁城电子株式会社_201710228291.3

发光装置、照明方法、设计方法、驱动方法、制造方法_西铁城电子株式会社_201710228291.3

清洗方法、喷砂方法_玛太克司马特股份有限公司_202011292640.6

设备、方法、制造方法_利萨·德雷克塞迈尔有限责任公司_201810625293.0

清洗方法、喷砂方法_玛太克司马特股份有限公司_202011292640.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

PDF表格提取方法专利

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务