上海通办信息服务有限公司郭大勇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海通办信息服务有限公司申请的专利一种基于深度学习的表格提取和识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115661848B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210807561.7,技术领域涉及:G06V30/414;该发明授权一种基于深度学习的表格提取和识别方法及系统是由郭大勇;王明月;张海龙设计研发完成,并于2022-07-11向国家知识产权局提交的专利申请。
本一种基于深度学习的表格提取和识别方法及系统在说明书摘要公布了:本申请公开了一种基于深度学习的表格提取和识别方法及系统,所述方法包括:S1,使用目标检测模型定位文档图片中表格的位置,去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;S2,使用图像分割模型检测表格线,获取检测表格线的首尾坐标,对表格线检测不全的线条进行填补,对表格边界未闭合的线条进行补全,通过标记二值化图片的八连通区域获取表格线搭建的单元格坐标,去除重合和不符要求的单元格;S3,对所有横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。本申请提高了表格提取和识别的正确率。
本发明授权一种基于深度学习的表格提取和识别方法及系统在权利要求书中公布了:1.一种基于深度学习的表格提取和识别方法,其特征在于,包括: S1,表格检测:使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片; S2,检测表格线,获取单元格: S21,使用图像分割模型检测表格线,图像分割模型预测出的目标区域是多边形区域; S22,对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标; S23,对表格线检测不全的线条进行填补; S24,对表格边界未闭合的线条进行补全; S25,对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标; S26,去除重合的单元格和尺寸不符合预设要求的单元格; S3,表格重建:对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建,具体包括如下步骤: S31,将表格的所有横线和竖线进行排序,计算所有横线与直线x=0的交点0,y,比较交点0,y中y坐标的大小关系,对所有横线进行上下关系排序,计算所有竖线与直线y=0的交点x,0,比较交点x,0中x坐标的大小关系,对所有竖线进行左右关系排序; S32,根据表格线为每个单元格梳理行列分布: 对每一个单元格,计算每条横线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有横线,得到分别与左上角点和右下角点距离最小的两条横线,即为该单元格的行分布信息; 对每一个单元格,计算每条竖线所在直线的直线方程,再分别计算当前单元格的左上角点和右下角点到该直线的距离,依次遍历完所有竖线,得到分别与左上角点和右下角点距离最小的两条竖线,即为该单元格的列分布信息; S33,对原图进行OCR识别,获取所有文本内容信息和文本框的坐标信息,对每个文本框,依次遍历所有的单元格,分别计算当前文本框与单元格的交并比IOU,计算步骤如下: 当两个矩形都为正矩形时,两个矩形的坐标分别为rect1=x1,y1,x2,y2,rect2=x3,y3,x4,y4,计算xmin=maxx1,x3,ymin=maxy1,y3,xmax=minx2,x4,ymax=miny2,y4,则IOU=xmax-xmin*ymax-ymin; 若交集面积大于文本框面积的第二预设倍数,则当前文本内容信息是属于该单元格的,由此将所有文本内容信息和所有的单元格一一对应上,完成表格内容的还原。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海通办信息服务有限公司,其通讯地址为:200082 上海市杨浦区政通路100弄11号(集中登记地);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励