买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于深度学习的图片型档案中文表格识别方法,涉及中文表格识别领域,该方法包括:对档案中文表格图片的表格结构进行识别,根据识别结果获取用HTML语言表示的表格结构序列以及单元格四点坐标;设计PA‑FPN模型检测单元格内文本行四点坐标,对每个所述单元格内的文本行取最小外接矩形轮廓;根据文本行四点坐标对原始表格图片进行裁剪后,通过卷积递归神经网络对每个裁剪后的文本行图片进行文本识别,得到文本字符串;根据聚合规则,将所述的表格结构序列、单元格坐标、文本行坐标及其内容进行聚合输出,生成完整的由HTML语言表示的表格文件。本发明能够有效提高对档案中文表格单元格内文本行检测的精确度。
主权项:1.一种基于深度学习的图片型档案中文表格识别方法,其特征在于,包括:对档案中文表格图片的表格结构进行识别,根据识别结果获取用HTML语言表示的表格结构序列以及单元格四点坐标;设计PA-FPN模型检测单元格内文本行四点坐标,对每个单元格内的文本行取最小外接矩形轮廓;根据文本行四点坐标对原始表格图片进行裁剪后,通过卷积递归神经网络对每个裁剪后的文本行图片进行文本识别,得到文本字符串;根据聚合规则,将表格结构序列、单元格坐标、文本行坐标及其内容进行聚合输出,生成完整的由HTML语言表示的表格文件。
全文数据:
权利要求:
百度查询: 南京理工大学 基于深度学习的图片型档案中文表格识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。