南京中新赛克科技有限责任公司卓可秋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京中新赛克科技有限责任公司申请的专利PDF扫描件内容识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116311305B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310268433.4,技术领域涉及:G06V30/412;该发明授权PDF扫描件内容识别方法及装置是由卓可秋;王杰;张全;郑天鹏设计研发完成,并于2023-03-20向国家知识产权局提交的专利申请。
本PDF扫描件内容识别方法及装置在说明书摘要公布了:本发明公开了一种PDF扫描件内容识别方法及装置,方法包括:1将PDF扫描件转换为图片;2利用横向像素点之和的方差变化情况,进行图片的方向纠偏;3基于预设第一模型进行版面分析,识别到图片中的印章、表格、目录标题和正文;4采用预设第二模型将图片中识别到的印章去除;5通过表格外轮廓以及内部单元轮廓的查找并定位到单元格位置,提取出表格中文本并填充到对应单元格,完成表格内容识别;6采用预设第三模型将识别的目录标题和正文生成层级目录结构,完成内容识别。本发明速度更快,识别准确率更高。
本发明授权PDF扫描件内容识别方法及装置在权利要求书中公布了:1.一种PDF扫描件内容识别方法,其特征在于包括如下步骤: 1将PDF扫描件转换为图片; 2利用横向像素点之和的方差变化情况,进行图片的方向纠偏; 3基于预设第一模型进行版面分析,识别到图片中的印章、表格、目录标题和正文; 4采用预设第二模型将图片中识别到的印章去除; 5通过表格外轮廓以及内部单元轮廓的查找并定位到单元格位置,提取出表格中文本并填充到对应单元格,完成表格内容识别; 6采用预设第三模型将识别的目录标题和正文生成层级目录结构,完成内容识别; 步骤2具体包括: 2.1将图片处理为二值图; 2.2判断二值图的宽度是否小于高度,若否,则将二值图旋转90度,并执行2.3,若是则直接执行2.3; 2.3采用OCR判断是否可识别出字符,若否则旋转180度,并执行2.4,若是则直接执行2.4; 2.4采用小于预设阈值的旋转角度旋转二值图; 2.5判断通过二值图像素点是否可检测到横向直线;若是,则直接将当前二值图作为纠偏后的图片输出;否则执行2.6; 2.6计算图片从上到下每一条横向像素点个数之和,并求出横向像素点方差; 2.7判断横向像素点方差是否相较上次增大,若是,则将旋转角度按照预设步长增大,并返回执行2.4,若否,则执行2.8; 2.8累计横向像素点方差无增大的次数,判断次数是否达到阈值,若是,执行2.9,若否,则将旋转角度按照预设步长增大,并返回执行2.4; 2.9将方差最大的二值图作为最终纠偏图片输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京中新赛克科技有限责任公司,其通讯地址为:210012 江苏省南京市雨花台区宁双路19号2幢1501室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励