买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及单据数据处理技术领域,公开了一种采购单OCR识别方法及系统,其技术方案要点是基于ocr识别引擎获取识别转化后的采购单结果;ocr对接模块基于通用的ocr识别表格对接ocr识别引擎;对于无边框数据,采用计分制方式进行匹配;识别匹配模块将数据与单据字段进行匹配;将识别完后的材料名称,匹配成门店具体材料信息或平台级别的材料信息;将供应商提供给维修门店的销售单直接转化为门店的系统中的采购单,减少了人员操作的复杂性以及出错的概率,同时此功能还具有记忆功能以及自发的数据调优功能,当下一次录入时,会根据上一次的录入分析结果,自动的减少前一次录入的重复操作,更准确的匹配商品减少核对时的工作量。
主权项:1.一种采购单OCR识别方法,其特征在于,所述方法包括以下步骤:S1、将供应商提供的单据图片输入ocr识别引擎,基于ocr识别引擎获取识别转化后的采购单结果;S2、ocr对接模块基于通用的ocr识别表格对接ocr识别引擎,并将对接后的采购单结果处理为统一的数据格式传送给核心控制模块;S3、对于无边框数据,采用计分制方式进行匹配;S4、核心控制模块将数据调度给识别匹配模块,识别匹配模块将数据与单据字段进行匹配,存、取之前用户匹配过的针对供应商的单据模板,以及存储、计算采购单字段对应的中文名称;S5、将识别完后的材料名称,匹配成门店具体材料信息或平台级别的材料信息;对于无边框数据,采用了计分制方式进行匹配,过程为:S31、将采购单图片识别返回定位结果数据转化为文本数据集合;处理ocr返回数据,text模型数据新增定位;处理ocr返回数据,table模型数据拆分为文本数据集合;S32、开通无边框识别开关且未正确识别的表格模型的数据将进行无边框算法解析;将模型数据处理为文本数据集合;通过Y坐标将一定误差内的文本块区域收集为一行得到采购单图片识别的每一行数据;当X坐标范围递增且在2个误差范围内的数据合并为一行,误差规则是或关系,满足规则一或规则二均识别为一行;误差规则一:基准线Y为每行第一个元素的Y坐标误差为当前行高*单元格偏移率;误差规则二:基准线Y为当前文字域前一个域的Y坐标误差为当前行高*单元格偏移率;根据原筛选规则算法计算表头行;表头长度小于最小值时则过滤;计算表头行X坐标,划分X轴区域为表格列;划分范围规则,第一列表头的起始点为:X2;划分范围规则,相邻两列的空白域的中点为前一个表头列终点,后一个表头列的起点;划分范围规则,最后一个表头列的终点为:当前表格最大X轴的数据与当前文字域的中点;取出每一行数据根据X坐标范围确认单元格列数据;规则一,小于表头的行坐标过滤;规则二,X坐标范围占表头列范围超过3个则过滤;规则三,将单元格文字域的宽度与在当前列的宽度的占比超过表格列宽最小占比,则对应列坐标,不满足规则三时则进行规则四判断当前文字域的列归属;规则四,将在当前列的宽度与表头宽度的占比超过表格列宽表头最小占比,则对应列坐标;根据行列数据圈定表格范围;规则一,表头行及其之前的数据过滤;规则二,无列坐标的数据过滤;规则三,表尾关键字,文字域命中一个关键字得10分,选取连续行得分,且总分超过表尾最小分的起始行作为表尾,规则三未过滤的数据进行规则四校验进行再次过滤;规则四,可空列数大于误差的数据过滤,因存在表格内容为空的数据,则通过表头列数*误差率得到可空列数,打印warn日志,若关键字效果好可去除;规则五,合并同行同列的数据,文字域内容数据word累加,仅保留前一个文字域;识别匹配模块将数据与单据字段进行匹配的过程为:根据识别的结果,最初通过匹配的文案为有边框数据,将其转换为采购单的数据;当出现不匹配的文案,但是用户仍然想匹配到采购单模块的,通过界面让用户选择自行进行两者的匹配;匹配后的结果会存储进入模板模块;模板本身会在下次识别同供应商的采购单时,进行重用,无需再次人工匹配;同时模板模块会定期对这些非平台的数据进行合计,若合计数超过阈值,则将并入平台匹配规则。
全文数据:
权利要求:
百度查询: 南京爱福路汽车科技有限公司 一种采购单OCR识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。