首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于单元格检测的表格结构识别方法、系统和设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明涉及图像识别领域,具体为基于单元格检测的表格结构识别方法、系统和设备,该方法包括:通过表格区域检测模型从表格图像中定位出表格所在区域,生成新的表格图像;通过改进通用的SBD算法,构建一个基于改进SBD算法的单元格检测模型,单元格检测模型对表格区域内所有单元格进行检测,获取包裹单元格的最小四边形的四个顶点坐标;通过设计一种单元格邻接匹配算法,根据检测的单元格的坐标找到在同一行或者同一列的单元格,通过表格行列聚类结果,预测出表格对应的HTML结构;根据预测出的表格HTML结构,恢复生成和图像中表格结构相同的可编辑形式的表格。本发明可以解决对跨行跨列单元格的结构恢复问题,相对于现有的方法具有更强的普适性。

主权项:1.基于单元格检测的表格结构识别方法,其特征在于:包括以下步骤:S1、表格区域获取,通过表格区域检测模型从表格图像中定位出表格所在区域,生成新的表格图像;S2、单元格检测,通过改进通用的SBD算法,构建一个基于改进SBD算法的单元格检测模型,单元格检测模型对表格区域内所有单元格进行检测,获取包裹单元格的最小四边形的四个顶点坐标;步骤S2具体包括:S21、对通用SBD模型进行修改,设置更多尺寸的预设框,在SBD模型的输出结合SBD的检测框回归分支和SBD分解分支获取单元格检测结果;S22、基于改进的SBD算法训练一个单元格检测模型,获取能够完整包裹每个独立单元格区域的最小外接四边形的四个顶点坐标;S3、表格结构预测,通过设计一种单元格邻接匹配算法,根据检测的单元格的坐标找到在同一行或者同一列的单元格,通过表格行列聚类结果,预测出表格对应的HTML结构;步骤S3具体包括:S31、设计一种单元格邻接匹配算法,通过以聚类的方式为每个单元格找到对应的行和列,即将在同一行或者同一列的单元格聚合到一起;S32、行聚类时,从一个单元格开始,通过邻近匹配找到位于其左边相邻单元格和右边相邻单元格,并将新匹配到的单元格添加到同一行的列表中,进一步寻找新添加单元格的左右邻近单元格,以此循环往复直至没有新添加的单元格;S33、列聚类时,从一个单元格开始,通过邻近匹配找到位于其上边相邻单元格和下边相邻单元格,并将新匹配到的单元格添加到同一列的列表中,进一步寻找新添加单元格的上下邻近单元格,以此循环往复直至没有新添加的单元格;S34、通过表格行列聚类结果,预测出表格对应的HTML结构;S4、表格结构可视化恢复,根据预测出的表格HTML结构,恢复生成和表格图像中表格结构相同的可编辑形式的表格。

全文数据:

权利要求:

百度查询: 华南理工大学 基于单元格检测的表格结构识别方法、系统和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。