买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京化工大学;安徽萃文科技有限责任公司
摘要:本发明公开了一种基于CRNN算法的OCR高考招生指南智能采集方法,属于计算机视觉技术领域,包括如下步骤:S1:文件获取与预处理,将PDF拆分成图片文件并对文件进行输入前预处理;S2:通过图像预处理模块对S1中输入的图片文件进行识别前预处理;S3:构建基于CRNN算法的OCR模型,对S2输出的经过预处理的图像进行识别并形成文本数据;S4:通过结构化数据生成模块对S3中形成的文本数据进行信息抽取,最终形成与数据库格式相同的结构化数据。本发明采用上述步骤的一种基于CRNN算法的OCR高考招生指南智能采集方法,能够有效的提高高考志愿填报数据的采集效率,同时能够保证大部分数据质量,加快进度的同时能够使后续的工作更加简单。
主权项:1.一种基于CRNN算法的OCR高考招生指南智能采集方法,其特征在于,包括如下步骤:S1:文件获取与预处理,将PDF拆分成图片文件并对文件进行输入前预处理;S2:通过图像预处理模块对S1中输入的图片文件进行识别前预处理;S3:构建基于CRNN算法的OCR模型,对S2输出的经过预处理的图像进行识别并形成文本数据;OCR模型包括卷积层、循环层和转录层,构建OCR模型的具体步骤如下:S31、卷积层采用CNN算法对输入图像提取特征,输出特征序列,采用h-swish函数作为激活函数,并加入一种残差连接,形成残差卷积神经网络;S32、循环层采用RNN的改进网络Bi-LSTM,同时在循环层也加入残差连接,形成残差循环网络Res-Bi-LSTM,从S31中获得的特征序列经Res-Bi-LSTM处理,输出的结果通过Softmax函数进行归一化处理,再使用argmax函数返回列向量的最大值,返回值是每个向量表示的字符;经过残差循环网络以及argmax函数的操作处理之后,序列中每一帧概率最大的字符类别作为该帧的结果输出,每一帧概率最大的字符类别表示OCR模型在该局部区域或时间步中认为最大概率对应的字符;S33、转录层采用CTC算法,CTC算法结合S32中经过Res-Bi-LSTM处理的特征序列以及序列中每一帧概率最大的字符类别,预测出可能性最大的序列标签,通过在字符串之间添加标识符的方式得到正确的文本识别结果;S4:通过结构化数据生成模块对S3中形成的文本数据进行信息抽取,最终形成与数据库格式相同的结构化数据,S4中的信息抽取过程包括院校代码及院校名称识别、专业代码及专业名称识别、备注信息识别、学费信息识别、计划人数识别,过程如下:S41、院校代码及院校名称识别,院校代码为大写字母与阿拉伯数字组成的4位字符,字符串的长度记为SL,如果SL≥4并且前4个字符为数字与大写字母的组合,则进入下一步判断;S411、如果SL=4,则判断文本中下一行是否为院校名称,此处需要计算下一行文本与“院校列表”的相似度S,若S≥sth则将其分类到院校代码并同时将下一行分类到院校名称;S412、如果SL>4,则判断第5个字符到末尾的切片字符串是否为院校名称,此处需要计算第5个字符到末尾的切片字符串与“院校列表”的相似度S,若S≥sth则将前4个字符分类为院校代码,后续字符分类到院校名称;S413、如果没满足S411及S412中的条件,并且字符串完全由数字组成,则将字符串分类到学费;S42、专业代码及专业名称识别,专业代码为大写字母与阿拉伯数字组成的2位字符,字符串长度SL,如果SL≥2,并且前2个字符为大写字母与阿拉伯数字的组合,并且后续的字符没有数字和字母,则进入如下判断:S421、如果SL=2并同时满足以下条件:(1)该行不是该文本最后一行数据;(2)结果数据中这行的专业名称是空的;(3)下一行的数据中不包含其他不符合专业名称特征的字符串;则将该行字符串分类为专业代码,下一行字符串分类为专业名称;S422、如果SL>2并同时满足以下条件:(1)第3位字符为中文;(2)字符串中的中英文括号为成对出现的,或者结果数据中这行的专业名称中英文括号成对出现;则将该行字符串前2位分类成专业代码,后续字符分类到专业名称;S423、将满足SL>2但不完全满足S422中其余条件的字符串,与结果数据中该行的专业名称进行合并组成完整的专业名称字符串;S43、备注信息识别,根据实例中备注信息的结构与位置进行如下判定:S431、如果‘市’存在于字符串中,并且满足以下任一条件:(1)将字符串用符号能分割成3部分,并且第2部分是完全由数字组成的;(2)‘独立学院’存在于字符串中;(3)‘民办院校’存在于字符串中;则将该字符串与结果数据中该行的备注信息进行合并;S432、如果不满足S431的条件,同时满足以下条件的:(1)字符串开头和结尾为中英文括号的;(2)不包含其他类型的字符组合的;则将该字符串与结果数据中该行的备注信息进行合并;S44、学费信息识别,若同时满足以下条件:(1)字符串完全由数字组成并且数字>1000的,或者去掉特殊字符后为“待定”“免费”的;(2)上一行文本数据中的专业名称与结果数据中该行专业名称成包含关系的;则将该字符串分类为学费;S45、计划人数识别,若同时满足以下条件:(1)上一行文本数据中的专业名称院校名称学费与结果数据中的专业名称院校名称学费成包含关系的;(2)字符串完全由数字组成并且数字<1000的;则将该字符串分类为计划人数。
全文数据:
权利要求:
百度查询: 北京化工大学 安徽萃文科技有限责任公司 一种基于CRNN算法的OCR高考招生指南智能采集方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。