首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种简捷有效的残缺表格识别及跨页拼接方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安工业大学

摘要:本发明公开了一种简捷有效的残缺表格识别及跨页拼接方法,通过直线提取检测表格矫正,采用提出的残缺表格定位识别算法,得到残缺表格的准确位置,出现上下页残缺时,对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正;然后使用Harris进行角点检测,预框选出感兴趣区域,判断预框选区域是否存在直线得到准确的表格区域;其次,对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;最后,将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。

主权项:1.一种简捷有效的残缺表格识别及跨页拼接方法,其特征在于,包括如下步骤:步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现;步骤103、形态学处理,预提取直线,步骤如下所示:1输入OTSU二值化后的图像2定义水平结构元素3开操作腐蚀+膨胀提取水平直线;步骤2中,Harris角点检测的过程如下:1求出Ix,y在x、y方向上的梯度Ix,Iy2求出在x、y方向上的梯度乘积,Ixy=Ix*Iy3对Ix,Iy,Ixy进行高斯加权,从而产生A,B,C三个元素,如下: 4求出每个像素的Harris响应值R,令小于阈值阈值一般为0.01*np.maxR的响应值R为05进行3*3邻域非极大值抑制,即如果该点的值比3*3邻域的其他角点小,则删除该角点6记录下角点在原图像的位置,即图像角点所在的位置。

全文数据:

权利要求:

百度查询: 西安工业大学 一种简捷有效的残缺表格识别及跨页拼接方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。