基于计算机视觉的表格结构重建与文字提取方法和系统

导航：龙图腾网> 最新专利技术> 基于计算机视觉的表格结构重建与文字提取方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海交通大学

摘要：本发明提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统，包括：步骤1：通过神经网络在PDF文档中识别并定位表格，得到表格所在的外框区域；步骤2：对PDF文档中的文字层进行解析，获取PDF文档中的文本间距；步骤3：根据框定的表格区域和本文间距，通过计算机视觉在表格区域内重建表格内框线结构；步骤4：根据表格内框线结构，从PDF文档中同位置处抽取文本信息；步骤5：根据表格内框线结构和对应文本信息，生成可编辑表格文件。本发明通过神经网络进行表格外框的识别，可以不通过人为给定表格外框区域，从而可以自动提取PDF文档中的所有表格，能够在无人监督的情况下批量提取大量PDF数据中的表格。

主权项：1.一种基于计算机视觉的表格结构重建与文字提取方法，其特征在于，包括：步骤1：通过神经网络在PDF文档中识别并定位表格，得到表格所在的外框区域；步骤2：对PDF文档中的文字层进行解析，获取PDF文档中的文本间距；步骤3：根据框定的表格区域和本文间距，通过计算机视觉在表格区域内重建表格内框线结构；步骤4：根据表格内框线结构，从PDF文档中同位置处抽取文本信息；步骤5：根据表格内框线结构和对应文本信息，生成可编辑表格文件；所述步骤2包括：步骤2.1：判断表格所在的PDF页是否含有文字层；步骤2.2：若没有文字层，则通过光学字符识别技术将该页嵌入文字层，嵌入文字的位置在图片中文字的相应位置上；步骤2.3：统计PDF文档中所有文字的大小，将文字的宽度平均值作为文本间距的估计值；所述步骤3包括：步骤3.1：根据表格外框区域和表格所在PDF页，将表格以图片形式截取出来；步骤3.2：对截取出的图片进行预处理，所述预处理包括阈值处理和形态学处理，去除表格中除文字和框线以外的噪点；步骤3.3：对表格进行竖线检测，若竖线像素超出预设值，则表明表格中含有框线并执行步骤3.4，否则执行步骤3.5；步骤3.4：对有框线的表格重建表格结构，提取表格的所有竖线和横线，获取竖线和横线的交集点集合，在去除冗余的点后，形成表格的内框交点集合；根据得到的交点集合，判断相邻点之间是否形成表格内框线，若是则将两点相连形成边；根据点和边形成有框线表格的表格结构；步骤3.5：对图片进行预处理，去除图片中长度超出预设阈值的横线和竖线，并将图片进行阈值处理，使得空白位置的像素值为0，含有文字的像素值为255；对图片进行行扫描，若扫描到某一行的像素值之和为0，则该行为横向的表格内框线，表格内框线位置为所有连续像素值和为0的行的中间位置，两个相邻横向内框线内部为表格中的一行；在相邻两个横内向框线间进行纵向扫描，将每列的像素值求和，若有连续超过文本间距数量的纵向像素和为0，则标记纵线扫描过的区域为空白区域，否则标记为有文字区域，从而获得每行有或没有文字区域的坐标集合；从上至下，从左到右合并各行间相互联通且能被一条纵线全部贯穿的空白区域，形成空白块，记录每个空白块的高度，去除所有高度为1行的空白块；遍历所有贯穿空白块的纵线，记录这条纵线穿过的所有空白块的总高度；最终将穿过空白块的高度总和最大的纵线作为一条表格纵向内框线，并将该线穿过的空白块设为已穿过；选择能穿过其他未穿过空白块的高度总和最大的纵线作为另一条表格纵向框线，并记录其穿过的空白块为已穿过，最终不断得到纵线，直到所有空白块都被穿过；根据得到的横向内框线和纵向内框线建立表格的最小单元格，扫描每个单元格的纵线是否经过有文字的区域，如有则删除该纵线，并进行表格左右单元格合并，最终形成合并单元格后的表格内框线结构。

全文数据：

权利要求：

百度查询：上海交通大学基于计算机视觉的表格结构重建与文字提取方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：数字城市治超治载监管系统

下一篇：防渗材料、其制备方法及应用

相关技术

数字城市治超治载监管系统

防渗材料、其制备方法及应用

深度学习框架中功能模块适配方法及装置

一种用于风力发电机组的故障检测方法

一种市政施工给水排污管道组件

一种激光直写纸基多通道LIG传感器的制备方法及其应用

基于边缘检测的支持装置视角检测及图像智能采集方法

基于多目标优化的异构计算资源调度方法及装置

一种乙肝相关肝癌诊断、预后标志物和治疗靶点的应用

一种电子元件贴片机械臂及其贴片方法

一种带自动锁闭口盖的脱插整流罩结构

墙壁镶板或天花板镶板

重建相关技术

PET图像的重建方法及重建终端、计算机可读存储介质_深圳先进技术研究院_202011431167.5

光谱重建方法及光谱仪_厦门大学_202210305617.9

微分同胚MR图像配准和重建_海珀菲纳运营有限公司_202410904410.2

基于注意力机制的图像稀疏重建方法_中国人民解放军国防科技大学_202210415002.1

一种重建锁定加压接骨板_武汉赛洛麦德科技发展有限公司_202322864865.X

三维重建方法、设备及存储介质_腾讯美国有限责任公司_202380020250.9

一种图像重建方法、装置及设备_杭州海康机器人股份有限公司_202410915025.8

一种高反光表面的三维重建装置及其三维重建方法_武汉科技大学_202410676498.7

一种基于植被分类和立地类型划分的矿区植被重建方法_中国矿业大学_202310863611.8

一种双通道先验约束的多距离无透镜数字全息重建方法_南昌大学_202410726799.6

文字相关技术

一种文字显示方法及相关装置_长城汽车股份有限公司_202410830100.0

文字输入方法、装置、电子设备及存储介质_百度国际科技(深圳)有限公司_202410709798.0

文字类扫描半色调图像恢复方法_西安理工大学_202410800962.9

一种票据微缩文字检测方法、系统及介质_长城信息股份有限公司_202410447119.7

基于计算机视觉的表格结构重建与文字提取方法和系统_上海交通大学_202111263283.5

一种基于OCR技术的文字识别系统_北京今朝在线科技有限公司_202410678492.3

用于文字转语音装置的底座_东莞明信电子有限公司_202323225867.0

一种文字信息碎片整合方法_国电电力发展股份有限公司北京分公司_202410503061.3

一种单点文字识别方法及装置_云知声智能科技股份有限公司_202210523887.7

一种文字识别方法及其相关设备_北京有竹居网络技术有限公司_202110825075.3

结构相关技术

病床结构_毕威泰克(浙江)医疗器械有限公司_202220974644.0

测试结构_芯联集成电路制造股份有限公司_202323613281.1

手杖结构_余永元_202420137552.6

车架结构_深圳市惠贝贝科技有限公司_202420054945.0

天线结构_纬创资通股份有限公司_202010522081.7

一种钢结构柱及钢结构柱的连接结构_江苏春都钢结构工程有限公司_202410815672.1

钢结构彩钢屋面屋脊的防水结构_陕西辉源建设有限公司_202323393088.1

一种船舶结构化吊装结构_广东中远海运重工有限公司_202410859205.9

电容结构及其形成方法、半导体结构_常州承芯半导体有限公司_202411082414.3

一种钢结构拐角连接结构_合肥获诌负机械科技有限公司_202323270119.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于计算机视觉的表格结构重建与文字提取方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务