买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及数字化处理技术领域,具体地说,涉及档案数字化处理中的高精度OCR识别与自动纠错方法。其包括如下步骤:对档案文档的文本图像进行预处理,将预处理后的图像文本分割成单独的字符,再利用连通区域分析的方法分离粘连的字符,并从每个字符中提取关键特征;将提取的关键特征与已知的字符模板进行比对,找出最匹配的文本结果;利用基于规则的纠错和基于上下文感知的纠错,对文本结果进行检查和修正。该档案数字化处理中的高精度OCR识别与自动纠错方法能够更好地处理复杂图像,尤其是在图像中存在多个灰度级别的对象时;且能够更好地保护图像中的边缘,防止在腐蚀和膨胀过程中边缘被破坏,同时减少误分割的可能性。
主权项:1.档案数字化处理中的高精度OCR识别与自动纠错方法,其特征在于,包括如下步骤:S1、对档案文档的文本图像进行预处理,在预处理的过程中引入多阈值并结合边缘信息进行优化,将预处理后的图像文本分割成单独的字符,再利用连通区域分析的方法分离粘连的字符,在分离粘连的字符过程中引入加权因子并结合边缘信息进行优化,并从每个字符中提取关键特征;其中,关键特征包括形状特征、笔画特征、几何特征和颜色特征;S2、将提取的关键特征与已知的字符模板进行比对,找出最匹配的文本结果;S3、利用基于规则的纠错和基于上下文感知的纠错,对文本结果进行检查和修正;S4、将检查和修正后的结果保存为指定格式,为档案文档添加元数据信息,并为档案建立用户反馈渠道,收集识别错误的案例。
全文数据:
权利要求:
百度查询: 山东省科学院海洋仪器仪表研究所 档案数字化处理中的高精度OCR识别与自动纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。