首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

图像文字识别方法、装置、计算机设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明公开了一种图像文字识别方法、装置、计算机设备及存储介质,该方法包括:获取原始图像;对原始图像进行全局优化处理,获得目标图像;将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组;将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果;根据目标分类结果确定目标图像的识别结果,基于目标图像对应的识别结果查询预设的语义库,获取与待识别文字相对应的目标文字。通过采用卷积神经网络模型和长短时记忆神经网络模型对图像进行图像文字识别,使得目标图像的识别更加准确,提高图像文字识别的准确率,提升了识别效率。

主权项:1.一种图像文字识别方法,其特征在于,包括:获取原始图像,所述原始图像包含待识别文字;对所述原始图像进行全局优化处理,获得目标图像;将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组;根据计算公式f_t=σW_f*[h_t-1,x_t]+b_f,按照预设的间隔向左或向右调整权重矩阵W_f的大小,并计算每次调整后当前时刻输出f_t的值,其中f_t为当前时刻输出的值,W_f是遗忘门的权重矩阵,σ是sigmoid函数,h_t-1是上一时刻长短时记忆神经网络的输出值,x_t是当前时刻长短时记忆神经网络的输入值,[h_t-1,x_t]表示把两个向量连接成一个更长的向量,b_f是遗忘门的偏置项;基于每一权重矩阵W_f的值,实时获取当前时刻输出f_t的值随时间而发生的变化轨迹,并生成折线图;计算所述折线图的斜率,选取符合预设结果的斜率的范围对应的权重矩阵W_f的值,作为所述长短时记忆神经网络模型遗忘门的权重矩阵;将所述目标图像的特征数组输入到所述长短时记忆神经网络模型,并设置所述长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5],更新所述目标图像的特征数组,得到目标特征数组输出值;根据所述目标图像的图像数组的识别维度,选择与所述识别维度相对应的多次元函数作为所述目标特征数组输出值的分类函数,对所述目标特征数组输出值进行分类;选取所述目标特征数组输出值中的最大输出值,根据所述最大输出值获取目标分类结果;根据所述目标分类结果确定所述目标图像的识别结果,基于所述目标图像对应的识别结果查询预设的语义库,获取与所述待识别文字相对应的目标文字。

全文数据:图像文字识别方法、装置、计算机设备及存储介质技术领域本发明涉及数据处理技术领域,尤其涉及一种图像文字识别方法、装置、计算机设备及存储介质。背景技术在日常生活中,有很多时候我们需要对图像上的文字内容进行提取,例如识别出图像上的文字信息并提取转换成可编辑的文字模式,在较多的情况下会采用神经网络机器学习算法对字符进行识别,通过训练好的神经网络模型对图像上的字符进行识别。然而,在大多数情况下,承载字符信息的图像存在模糊倾斜等问题,会影响字符信息的清晰度,限制识别效果;而且在神经网络模型中,由于训练神经网络模型数据集的多样性,会造成神经网络模型学习上的时间差别,会存在识别不准确的情况,极大限制了识别系统的性能,造成识别的精确度不高,使得识别效果不理想。发明内容本发明实施例提供一种图像文字识别方法、装置、计算机设备及存储介质,可以提高图像文字识别的准确率。一种图像文字识别方法,包括:获取原始图像,所述原始图像包含待识别文字;对所述原始图像进行全局优化处理,获得目标图像;将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组;将所述目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对所述目标图像进行分类,获取目标分类结果;根据所述目标分类结果确定所述目标图像的识别结果,基于所述目标图像对应的识别结果查询预设的语义库,获取与所述待识别文字相对应的目标文字。一种图像文字识别装置,包括:获取原始图像,所述原始图像包含待识别文字;对所述原始图像进行全局优化处理,获得目标图像;将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组;将所述目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对所述目标图像进行分类,获取目标分类结果;根据所述目标分类结果确定所述目标图像的识别结果,基于所述目标图像对应的识别结果查询预设的语义库,获取与所述待识别文字相对应的目标文字。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像文字识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像文字识别方法的步骤。上述图像文字识别方法、装置、计算机设备及存储介质中,通过对原始图像进行全局优化处理,使目标图像更清晰规范,便于识别和提取待识别文字;通过采用卷积神经网络模型对目标图像进行特征提取,然后采用长短时记忆神经网络模型设置用于图像分类的功能参数对目标图像进行分类,使得目标图像的识别更加准确,提高图像文字识别的准确率,提升了识别效率。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例中图像文字识别方法的一应用环境示意图;图2是本发明一实施例中提供的图像文字识别方法的一实现流程图;图3是本发明实施例中提供的图像文字识别方法的另一实现流程图;图4是本发明实施例中提供的图像文字识别方法的另一实现流程图;图5是本发明实施例中提供的图像文字识别方法的另一实现流程图;图6是本发明一实施例中图像文字识别装置的一示意图;图7是本发明一实施例中计算机设备的一示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请提供的图像文字识别方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,用户通过客户端上传原始图像,服务端获取原始图像,以对原始图像进行文字识别。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图2示出本实施例中图像文字识别方法的流程图。该图像文字识别方法应用在服务端中,用于识别图像中的文字,提高图像文字识别的准确率。如图2所示,该图像文字识别方法包括如下步骤:S10:获取原始图像,原始图像包含待识别文字。其中,原始图像是指用于进行文字识别的图像。待识别文字是指原始图像中的文字。具体地,原始图像的来源可以多样化,可以是从互联网中获取的图像,可以是用户通过客户端拍摄的图像,也可以是摄像机拍摄的移动中物体的图像帧幅,服务端通过接口进行图像传输。服务端获取原始图像,可以是从客户端获取用户上传的图像,也可以是指定获取服务端存储的图像或者是互联网中的图像作为原始图像。S20:对原始图像进行全局优化处理,获得目标图像。其中,目标图像是指经全局优化处理后,便于进行文字识别的图像。可选地,目标图像中突出显示待识别文字。具体地,获取到的原始图像会存在各种背景信息,图像质量也参差不齐,由于原始图像获取的来源多种多样,原始图像中也包含各种噪声影响着原始图像的质量和清晰度,并且原始图像中待识别文字的位置可能存在不规范,即图像可能存在歪曲或倾斜的情况。对原始图像进行全局优化处理,可以包括对获取到的原始图像进行二值化灰度处理,减少目标图像的复杂度和信息处理量,以突出目标图像中的待识别文字;对原始图像进行去噪处理,提高目标图像的质量和清晰度;对原始图像进行校正处理,使得到的目标图像更规范化。全局优化处理之后的目标图像去除了复杂的背景,包含突出显示的规范化的待识别文字部分。优选地,全局优化处理中的二值化灰度处理、去噪处理和校正处理并不限定其处理顺序及步骤,可以根据原始图像的实际情况选择进行。例如,原始图像中待识别文字的位置原本就是规范的,则可以减少校正处理的步骤。S30:将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组。其中,卷积神经网络模型是基于卷积神经网络预先训练好的一个特征提取模型。卷积神经网络ConvolutionalNeuralNetwork,简称CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,用于大型图像处理,主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。卷积神经网络模型以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性。特征数组是目标图像中特征的数据矩阵,即将目标图像中的突出特征以数据矩阵的形式进行表示。具体地,CNN模型的特征检测层通过训练数据进行学习,从而CNN模型在检测到输入的目标图像时,通过特征检测对目标图像进行特征提取,得到目标图像的特征数组。进一步地,CNN模型的权值共享降低了网络的复杂性,对于多维输入向量的图像可以直接输入到网络,避免了特征提取中数据重建的复杂度。S40:将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果。其中,长短时记忆神经网络模型是基于长短时记忆神经网络预先训练好的一个特征分类模型。长短时记忆神经网络又称递归神经网络LongShort-TermMemory,简称LSTM,LSTM模型是一种时间递归神经网络模型,具有时间记忆功能,适合于处理和预测具有时序状态的事件,且可以处理时间序列间隔和延迟相对较长的重要事件。能够实现图像精准分类的功能参数是指LSTM模型中用于对图像进行分类的参数,LSTM模型中功能参数的不同可以影响图像分类结果,设置用于图像分类的功能参数,可以有助于LSTM模型分类更加准确。目标分类结果是目标图像在LSTM模型中进行分类后待识别文字分类概率的结果。具体地,由于很多文字会存在笔画相似的近似字,在识别过程中根据目标图像的特征数组在训练好的LSTM模型中进行分类,会将待识别文字分类到其近似字下,分类后目标图像中的待识别文字均对应其近似字的概率,设置用于图像分类的功能参数,使得待识别文字分类准确的概率更高。例如,待识别文字为“X阳”,根据设置的能够实现图像精准分类的功能参数,分类后“X”为“太”字的概率为80%,为“大”字的概率为15%,为“天”字的概率为5%,对于近似字的概率就是目标图像的分类结果,选择分类结果中概率最大的分类结果即为目标分类结果。进一步地,目标图像的特征数组输入至LSTM模型,LSTM模型通过设置遗忘门的参数控制特征数组被遗忘的程度,通过输入门和一个tanh函数配合控制新加入的特征数组,通过输出门控制新信息被加入的多少,对特征数组进行过滤,基于过滤后的特征数组,对目标图像进行分类,获取目标分类结果。S50:根据目标分类结果确定目标图像的识别结果,基于目标图像对应的识别结果查询预设的语义库,获取与待识别文字相对应的目标文字。其中,识别结果是指根据目标分类结果确定的目标图像被识别的最大概率。预设的语义库是指预先设置好的基于词频描述中文词语间语义关系的词库。具体地,根据目标分类结果确定目标图像被识别的最大概率,即目标图像的识别结果,基于目标图像对应的被识别的最大概率,查询预设的语义库,根据语义库中常用的语义关系,计算目标图像对应语义的概率,将最大的被识别概率作为识别结果。例如,对于一文本,该文本中的字是有先后顺序的,如“红X阳”,则对于“X”字而言,单纯的无法获知其含义,但是结合“红X阳”整个文本的前序语义和后序语义,可以获得“X阳”这两个字的词的分类结果“太阳”出现的概率为80%,“骄阳”出现的概率为20%,确定最大识别概率为80%的“太阳”,则基于该识别结果查询预设的语义库,语义库中存在包含“红太阳”语义关系的词汇,则可以精确地得到与待识别文字相对应的目标文字。本实施例中,对原始图像进行全局优化处理,减少目标图像的复杂度和信息处理量,使得到的目标图像更规范化;采用CNN模型对目标图像进行特征提取,CNN模型的权值共享降低了网络的复杂性,对于多维输入向量的图像可以直接输入到网络,避免了特征提取中数据重建的复杂度;采用LSTM模型对模板图像进行分类,依据LSTM模型长时记忆能力以及可识别时序状态的功能,可以减少系统学习时间上的差别。结合识别结果和预设的语义库获取待识别中文字对应的目标文字,提高了识别精确度,进一步提高图像文字识别的准确率。在一实施例中,对原始图像进行全局优化处理,获得目标图像,具体包括如下步骤:对原始图像进行二值化处理,获取二级处理图像。其中,图像二值化处理是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。二级处理图像是指经过二值化处理之后的图像。具体地,对原始图像进行二值化处理,获取二级处理图像包括如下步骤:1对原始图像进行灰度化处理,获取原始灰度化图像。将原始图像进行灰度化处理,也就是将彩色图像呈现出明显的黑白效果。彩色图像中的每个像素的颜色都是通过R红、G绿、B蓝三个分量决定的,而每个分量有256种值可取0最暗表示黑色,255最亮表示白色,这样一个像素点可以有1600多万255*255*255的颜色的变化范围。而灰度化图像是R、G、B三个分量相同的一种特殊的彩色图像,具有256个亮度等级。在一种方案中,求出每个像素点的R、G、B三个分量的平均值,然后将这个平均值赋予给这个像素的三个分量。在另一种方案中,根据YUV是被欧洲电视系统所采用的一种颜色编码方法的加权平均算法进行计算。其中,Y表示明亮度Luminance或Luma,也就是灰阶值;而U和V表示的则是色度Chrominance或Chroma,作用是描述影像色彩及饱和度,用于指定像素的颜色。根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应:Y=0.3R+0.59G+0.11B,以这个亮度值表达图像的灰度值。对原始图像进行灰度化处理得到原始灰度化图像,可以方便对原始灰度化图像的后续化处理,减少图像的复杂度和信息处理量。2将原始灰度化图像进行二值化处理,获取二级处理图像。将256个亮度等级的灰度图像通过预设的阈值选取获得可以反映图像整体和局部特征的二值化图像。将原始图像转化为一张m×n的灰度图,m、n分别为图像的高度和宽度,也就是变换为一个二维的灰度矩阵。其中,预设的阈值为肉眼的灰度分辨率40。对二级处理图像进行噪声去除,得到三级处理图像。具体地,一般在图像中主要的噪声有:高斯噪声、瑞利噪声、伽马噪声、椒盐噪声等,因此,在本方案中,需对待识别图像进行去噪,具体地,可采用中值滤波算法对图像进行噪声去除处理。进一步地,中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替,让周围的像素值接近的真实值,从而消除孤立的噪声点。方法是用某种结构的二维滑动模板,将板内像素按照像素值的大小进行排序,生成单调上升或下降的为二维数据序列。采用中值滤波法对二级处理图像进行去噪,将二级处理图像的每一像素点的灰度值设置为其邻域窗口内的所有像素点的中值,依次将每个像素作为中心像素是指在给定的区域内,将区域内的每个像素都作为中心像素。例如,区域内有15个像素,这15个像素依次作为中心像素,那么就有15个中心像素。当边界的像素作为中心像素时,可通过扩展像素的方式将边界像素看作中心像素,即边界像素邻域内不存在的像素的灰度值设置成与该边界像素灰度值相等。例如一图像的矩阵为:其中,第一行第一列的像素的灰度值为22,其左部和上部均不存在像素,那么在计算对比度时,将其左部和上部的像素的灰度值设置成与该边界像素相同的大小的灰度值,即左部和上部的灰度值均为22。在另一种方案中,还可以采用其他方式对二级处理图像进行去噪:如均值滤波算法、中值滤波、维纳滤波wienerfiltering等,具体不做限定。对三级处理图像进行倾斜校正处理,得到目标图像。其中,原始图像中待识别文字的位置可能存在不规范,即图像可能存在歪曲或倾斜的情况,为了使得到的目标图像规范化,需要对三级处理图像进行校正处理。具体地,对三级处理图像进行倾斜校正处理,得到目标图像包括如下步骤:1读取三级处理图像的原图高度和宽度,对三级处理图像进行膨胀处理,将断续的文字连成一条直线。其中,膨胀操作就是将图像或图像的一部分区域与以元素结构进行卷积,求局部最大值的操作,元素结构与图像卷积,即计算元素结构覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,使图像中的高亮区域逐渐增长。处理过程为用结构元素扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作,如果都为0,则图像的该像素为0否则为1,计算元素结构覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素。设置膨胀幅度,分别从水平方向对图像进行膨胀处理,对水平膨胀后进行垂直方向膨胀,将断续的文字连城一个整体的图像,例如将一段文字连成一条直线。2对膨胀后的图像进行边缘检测。膨胀后图像的像素被最大值覆盖,其文字部分明显区别于背景空白部分。对于灰度二进制的图像,如果图像的像素值为1,则该像素的状态为on;如果其像素值为0,则该像素的状态为off。在一幅图像中,如果该图像某个像素满足以下两个条件:1、该像素状态为on;2、该像素邻域中有一个或多个像素状态为off,则可以判定该像素为边缘像素,利用其边缘像素与像素邻域的差异,检测其边缘点。3对边缘点进行霍夫变换,找到最长线段的角度。其中,霍夫变换是一种特征检测技术,用来辨别找出物件中的特征。霍夫变换寻找直线与圆的方法相比与其它方法可以更好的减少噪声干扰。具体地,基于膨胀后的图像的高度和宽度,对边缘检测后的边缘点进行霍夫变化,对变换域中对应重复出现的点累加,基于图像的对角线距离,找出最长直线为中间变量用于比较,记录最长直线角度kmax,记录最长直线距离pmax。4采用旋转函数旋转图像,得到目标图像。其中,图像的最长直线角度kmax,表示图像的倾斜角度,那么其校正为规范图像实际应该旋转地角度也是kmax。旋转函数采用RotateDIBimg,kmax函数,RotateDIB为旋转函数,img中存放原图数据,kmax为旋转角度。获取原图像的位置坐标,设定旋转角度为最长直线角度kmax,对原图像进行旋转,得到校正后的目标图像。在本实施例中,通过对原始图像进行二值化处理、噪声去除处理和倾斜校正处理,可以改善待处理图像质量,包括增强图像对比度、保留图像细节和去除噪声等,可以减少原始图像的复杂度和信息处理量,提高原始图像的清晰度,从而使得目标图像的细节更加清楚,使得目标图像更规范化,易于被识别,为保证后续的图像文字识别提供了一定的保障。在一实施例中,如图3所示,步骤S30中,即将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组,具体包括如下步骤:S31:获取目标图像的图像数组。具体地,遍历目标图像的每个像素点,获得每个像素点的RGB图像数据,采用二进制方式读入图像数据将图像数据存储到二维数组中,采用二维数组保存图像点阵,得到图像数组。S32:将目标图像的图像数组输入到卷积神经网络模型,基于卷积神经网络模型的卷积和池化操作对目标图像进行特征提取,得到目标图像的特征数组。其中,卷积神经网络ConvolutionalNeuralNetwork,简称CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,能够进行图像处理和识别。卷积神经网络与一般的深度神经网络DeepNeuralNetworks,简称DNN的主要区别在于卷积神经网络包括卷积层和池化层,这为卷积神经网络能够对带有文字的图像进行处理和识别提供重要的技术支持。具体地,将目标图像的图像数组输入到卷积神经网络模型,通过特征检测器计算与图像数组的点乘得到特征图,通过在卷积操作前修改特征检测器的数值,可以从图像中检测到不同的特征。卷积神经网络模型的卷积层通过从输入的图像数组中提取目标图像的特征,并可以保留像素间的空间关系。卷积操作后使用修正线性单元ReLU,RectifiedLinearUnit进行操作。ReLU是一个非线性、元素级别的操作,可以应用到各个像素中,并将特征图中的所有小于0的像素值设置为零。ReLU操作的目的是引入非线性,因为卷积是一个线性操作,所以需要通过使用非线性函数ReLU来引入非线性。ReLU操作后得到修正特征图。然后进行池化操作,池化操作也称为空间池化,可以降低各个特征图的维度,但可以保持大部分重要的信息。池化操作可以包括空间最大池化或者平均池化等方式。本实施例采用最大池化MaxPooling的方式,首先定义一个空间邻域比如,2x2的窗口,使用2x2的步长在修正特征图使用最大池化,并从窗口内的修正特征图中取出最大的元素,以从图像数组中提取有用的特征,作为目标图像的特征数组。在本实施例中,获取目标图像的图像数组,并通过卷积神经网络模型处理图像数组,可以从目标图像中提取有用的特征,并在卷积操作中引入非线性函数,以减少特征维度,并同时保持这些特征具有某种程度上的尺度变化不变性。在一实施例中,步骤S40中,如图4所示,即将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果,具体包括如下步骤:S41:将目标图像的特征数组输入到长短时记忆神经网络模型,并设置长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5],更新目标图像的特征数组,得到目标特征数组输出值。其中,长短时记忆神经网络模型是基于长短时记忆神经网络预先训练好的一个特征分类模型。长短时记忆神经网络又称递归神经网络LongShort-TermMemory,简称LSTM,LSTM模型是一种时间递归神经网络模型,具有时间记忆功能,适合于处理和预测具有时序状态的事件,且可以处理时间序列间隔和延迟相对较长的重要事件。遗忘门的权重矩阵是基于分类性特征的权重指标,是控制遗忘门中特征数组被遗忘程度的指标。具体地,将目标图像的特征数组输入到LSTM模型,并设置长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5]。LSTM模型由记忆单元组成,具有遗忘门、输入门和输出门这三层网络结构,遗忘门是以上一单元的输出和本单元的输入为输入的sigmoid函数,为记忆单元中的每一项特征产生一个在[0,1]内的值,以控制上一特征数组被遗忘的程度。遗忘门是LSTM模型中最重要的门之一,遗忘门大小就是一个参数即为遗忘门的权重矩阵,用于作为指标传入到程序中进行计算遗忘程度。将目标图像的特征数组作为LSTM的输入,通过变动遗忘门的参数值,设置遗忘门的权重矩阵为forgetgate=0.0-0.5,控制目标图像的特征数组被遗忘的程度。在LSTM模型中forgetgate设置为1.0时,loss会急剧下降但是loss不理想;如果使forgetgate设置为0.0-0.5时,loss会是最佳的。输入门和一个tanh函数配合控制有哪些新信息被加入。tanh函数产生一个新的候选向量Ct~,输入门为Ct~中的每一项产生一个在[0,1]内的值,控制新信息被加入的多少。输出门用来控制当前的单元状态有多少被过滤掉,控制单元状态被过滤的程度。基于遗忘门的权重矩阵,用来控制上一单元的被遗忘程度,基于输入门的输出,用来控制新信息被加入的多少,基于输出门的输出,控制单元状态被过滤的程度,根据被遗忘程度、加入的新信息和过滤程度更新记忆单元的单元状态,即更新目标图像的特征数组,得到目标特征数组输出值。S42:根据目标图像的图像数组的识别维度,选择与识别维度相对应的多次元函数作为目标特征数组输出值的分类函数,对目标特征数组输出值进行分类。具体地,目标特征数组输出值是用一个向量表示的值,该向量中的值的范围在0-1之间。可以理解地,该目标特征数组输出值实际上就是一个分类器,其通过softmax函数实现在向量中对每个值进行概率描述。softmax函数的选择上可以选择多次元的函数来使分类结果更加的准确。多次元函数指的是多元方程组,在识别一个图像时,影响识别成功的因素有很多,而越多的因素就决定了需要更多的元变量来适应。根据影响目标图像的因素,选择这些因素对应的多次元函数,使得softmax函数更适应当前的目标图像。具体地,若影响图像识别结果的因素有X个,就针对每一因素设置一函数变量,相应地设置为X次元函数。例如,输入的目标图像需要考虑像素、灰度值、亮度、背景颜色和颜色饱满度五个因素,则相应的softmax函数选择为五次元函数。根据图像数组的识别维度,选择与识别维度相对应的多次元函数,基于多次元函数作为目标特征数组输出值的分类函数,分别针对每一目标特征数组输出值进行概率描述。S43:选取目标特征数组输出值中的最大输出值,根据最大输出值获取目标分类结果。具体地,通过softmax函数对向量中的每个值进行概率描述,该向量中的值最大的,即对应某一分类结果最大,目标特征数组输出值中的最大输出值,对应其分类的概率最大,根据最大输出值获取目标分类结果。在实际生活中的待识别文字与标准规范存在差别,但是这种差别相比与其他不对应标准规范字的差别小很多的,例如,待识别文字的“我”和标准规范字的“我”在像素分布上存在差别,但是这种差别相比于待识别文字“你”和标准规范字“我”之间的差别明显小很多。可以这样认为,即使待识别文字与相对应的标准规范字之间存在一定的差别,但是这种差别与不相对应的标准规范字的差别小得多,因此,可以通过最相似即差别最小的原则,以分类概率的最大输出值确定目标分类结果。在本发明实施例提供的图像文字识别方法中,采用长短时记忆神经网络模型对标图像的特征数组进行分类,通过调整LSTM模型遗忘门的权重矩阵,选择多次元的函数,来使分类结果更加的准确,提高图像文字识别的准确率。在一实施例中,如图5所示,在步骤S41之前,即设置长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5]的步骤之前还包括以下步骤:S411:根据计算公式f_t=σW_f*[h_t-1,x_t]+b_f,按照预设的间隔向左或向右调整权重矩阵W_f的大小,并计算每次调整后当前时刻输出f_t的值,其中f_t为当前时刻输出的值,W_f是遗忘门的权重矩阵,σ是sigmoid函数,h_t-1是上一时刻长短时记忆神经网络的输出值,x_t是当前时刻长短时记忆神经网络的输入值,[h_t-1,x_t]表示把两个向量连接成一个更长的向量,b_f是遗忘门的偏置项。其中,LSTM模型由记忆单元组成,具有遗忘门、输入门和输出门这三层网络结构,遗忘门是以上一单元的输出和本单元的输入为输入的sigmoid函数,为记忆单元中的每一项特征产生一个在[0,1]内的值,以控制特征数组被遗忘的程度。遗忘门决定了上一时刻的单元状态会有多少保留到当前时刻的输出中,即当前时刻输出f_t的值。权重矩阵W_f是遗忘门中基于分类性特征的权重指标,是控制遗忘门中特征数组被遗忘程度的指标。Sigmoid函数具有单增以及反函数单增的性质,被用作LSTM模型的阈值函数,用于将变量映射到[0,1]之间。h_t-1是上一时刻LSTM的输出值,x_t是当前时刻LSTM的输入值,[h_t-1,x_t]表示把两个向量连接成一个更长的向量,以作为遗忘门的输入。b_f是遗忘门的偏置项。具体地,根据当前时刻输出的计算公式f_t=σW_f*[h_t-1,x_t]+b_f,分别按照预定的间隔向左或者向右调整权重矩阵W_f的大小,取每一权重矩阵W_f的值带入到当前时刻输出的计算公式中分别计算当前时刻的输出f_t的值。S412:基于每一权重矩阵W_f的值,实时获取当前时刻输出f_t的值随时间而发生的变化轨迹,并生成折线图;具体地,基于每一权重矩阵W_f的值,实时获取当前时刻输出f_t的值随时间而发生的变化轨迹,并采用图像法将当前时刻输出f_t的值随时间而发生的变化轨迹生成折线图。进一步地,折线图以权重矩阵W_f的值为定项,以当前时刻输出f_t的值为纵坐标,以时间为横坐标的二维折线图,经过调整大量权重矩阵W_f的值,根据大量当前时刻输出f_t的值随时间而发生的变化对折线图进行分析,可知当前时刻输出f_t的值的变化是正切函数形式,并且其随时间的变化幅度与W_f有关。S413:计算折线图的斜率,选取符合预设结果的斜率的范围对应的权重矩阵W_f的值,作为长短时记忆神经网络模型遗忘门的权重矩阵。具体地,计算每一权重矩阵W_f的值对应的折线图的斜率,得到斜率的变化,选取符合预设结果的斜率的范围对应的权重矩阵W_f的值,作为遗忘门权重矩阵的最优适用范围,以作为LSTM模型遗忘门的权重矩阵。进一步地,根据大量数据的计算分析结果得出,LSTM模型遗忘门的权重矩阵为[0.0,0.5]。本实施例中,通过调整权重矩阵W_f的大小,根据当前时刻输出的计算公式得到每一权重矩阵下当前时刻输出f_t的值随时间的变化轨迹,将当前时刻输出f_t的值随时间的变化轨迹生成折线图,并分析其斜率,可以根据具体的训练数据获得准确的结果,选取符合预设结果的斜率的范围,作为LSTM模型遗忘门的权重矩阵,使得到的遗忘门权重矩阵的范围更加精准,能够实现对图像的精准分类。在一实施例中,在步骤S50中,即在将目标图像的特征数组输入至长短时记忆神经网络模型的步骤之后;并且在对目标图像进行分类,获取目标分类结果的步骤之前,图像文字识别方法还包括如下步骤:采用自适应时刻估计算法,迭代更新长短时记忆神经网络模型的网络权重。其中,自适应时刻估计算法AdaptiveMomentEstimation,简称Adam算法是一种对随机目标函数执行一阶梯度优化的算法,该算法基于适应性低阶矩估计。Adam算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。Adam算法也是基于梯度下降的方法,但是每次迭代参数的学习步长都有一个确定的范围,不会因为很大的梯度导致很大的学习步长,参数的值比较稳定。具体地,Adam算法能计算每个参数的自适应学习率,用来迭代更新长短时记忆神经网络模型的网络权重,与其他自适应学习率算法相比,收敛速度更快,学习效果更为有效,可以提高识别的准确率,而且还可以纠正如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。本实施例中,采用自适应时刻估计算法,迭代更新长短时记忆神经网络模型的网络权重,收敛速度更快,学习效果更为有效,可以提高图像文字识别的准确率。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。在一实施例中,提供一种图像文字识别装置,该图像文字识别装置与上述实施例中图像文字识别方法一一对应。如图6所示,该图像文字识别装置包括原始图像获取模块10、原始图像处理模块20、目标图像特征提取模块30、目标图像分类模块40和目标文字获取模块50。各功能模块详细说明如下:原始图像获取模块10,用于获取原始图像,原始图像包含待识别文字;原始图像处理模块20,用于对原始图像进行全局优化处理,获得目标图像;目标图像特征提取模块30,用于将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组;目标图像分类模块40,用于将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果;目标文字获取模块50,用于根据目标分类结果确定目标图像的识别结果,基于目标图像对应的识别结果查询预设的语义库,获取与待识别文字相对应的目标文字。优选地,目标图像特征提取模块30包括:图像数组获取单元31和特征数组获取单元32。图像数组获取单元31,用于获取目标图像的图像数组;特征数组获取单元32,用于将目标图像的图像数组输入到卷积神经网络模型,基于卷积神经网络模型的卷积和池化操作对目标图像进行特征提取,得到目标图像的特征数组。优选地,目标图像分类模块40包括:目标特征数组输出值获取单元41、目标特征数组输出值分类单元42和目标分类结果获取单元43。目标特征数组输出值获取单元41,用于将目标图像的特征数组输入到长短时记忆神经网络模型,并设置长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5],更新目标图像的特征数组,得到目标特征数组输出值;目标特征数组输出值分类单元42,用于根据目标图像的图像数组的识别维度,选择与识别维度相对应的多次元函数作为目标特征数组输出值的分类函数,对目标特征数组输出值进行分类;目标分类结果获取单元43,用于选取目标特征数组输出值中的最大输出值,根据最大输出值获取目标分类结果。优选地,该图像文字识别装置还包括:权重矩阵调整模块411、当前时刻输出记录模块412和最优适用范围分析模块413。权重矩阵调整模块411,用于根据计算公式f_t=σW_f*[h_t-1,x_t]+b_f,按照预设的间隔向左或向右调整权重矩阵W_f的大小,并计算每次调整后当前时刻输出f_t的值,其中f_t为当前时刻输出的值,W_f是遗忘门的权重矩阵,σ是sigmoid函数,h_t-1是上一时刻长短时记忆神经网络的输出值,x_t是当前时刻长短时记忆神经网络的输入值,[h_t-1,x_t]表示把两个向量连接成一个更长的向量,b_f是遗忘门的偏置项;当前时刻输出记录模块412,用于基于每一权重矩阵W_f的值,实时获取当前时刻输出f_t的值随时间而发生的变化轨迹,并生成折线图;最优适用范围分析模块413,用于计算折线图的斜率,选取符合预设结果的斜率的范围对应的权重矩阵W_f的值,作为长短时记忆神经网络模型遗忘门的权重矩阵。优选地,该图像文字识别装置还包括:迭代更新模块60。迭代更新模块60,用于采用自适应时刻估计算法,迭代更新长短时记忆神经网络模型的网络权重。关于图像文字识别装置的具体限定可以参见上文中对于图像文字识别方法的限定,在此不再赘述。上述图像文字识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像文字识别方法。在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取原始图像,原始图像包含待识别文字;对原始图像进行全局优化处理,获得目标图像;将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组;将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果;根据目标分类结果确定目标图像的识别结果,基于目标图像对应的识别结果查询预设的语义库,获取与待识别文字相对应的目标文字。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始图像,原始图像包含待识别文字;对原始图像进行全局优化处理,获得目标图像;将目标图像输入到卷积神经网络模型中进行特征提取,得到目标图像的特征数组;将目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对目标图像进行分类,获取目标分类结果;根据目标分类结果确定目标图像的识别结果,基于目标图像对应的识别结果查询预设的语义库,获取与待识别文字相对应的目标文字。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

权利要求:1.一种图像文字识别方法,其特征在于,包括:获取原始图像,所述原始图像包含待识别文字;对所述原始图像进行全局优化处理,获得目标图像;将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组;将所述目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对所述目标图像进行分类,获取目标分类结果;根据所述目标分类结果确定所述目标图像的识别结果,基于所述目标图像对应的识别结果查询预设的语义库,获取与所述待识别文字相对应的目标文字。2.如权利要求1所述的图像文字识别方法,其特征在于,所述将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组,具体包括如下步骤:获取所述目标图像的图像数组;将所述目标图像的图像数组输入到所述卷积神经网络模型,基于所述卷积神经网络模型的卷积和池化操作对所述目标图像进行特征提取,得到所述目标图像的特征数组。3.如权利要求2所述的图像文字识别方法,其特征在于,所述将所述目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对所述目标图像进行分类,获取目标分类结果,具体包括如下步骤:将所述目标图像的特征数组输入到所述长短时记忆神经网络模型,并设置所述长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5],更新所述目标图像的特征数组,得到目标特征数组输出值;根据所述目标图像的图像数组的识别维度,选择与所述识别维度相对应的多次元函数作为所述目标特征数组输出值的分类函数,对所述目标特征数组输出值进行分类;选取所述目标特征数组输出值中的最大输出值,根据所述最大输出值获取目标分类结果。4.如权利要求3所述的图像文字识别方法,其特征在于,在所述设置所述长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5]的步骤之前,还包括以下步骤:根据计算公式f_t=σW_f*[h_t-1,x_t]+b_f,按照预设的间隔向左或向右调整权重矩阵W_f的大小,并计算每次调整后当前时刻输出f_t的值,其中f_t为当前时刻输出的值,W_f是遗忘门的权重矩阵,σ是sigmoid函数,h_t-1是上一时刻长短时记忆神经网络的输出值,x_t是当前时刻长短时记忆神经网络的输入值,[h_t-1,x_t]表示把两个向量连接成一个更长的向量,b_f是遗忘门的偏置项;基于每一权重矩阵W_f的值,实时获取当前时刻输出f_t的值随时间而发生的变化轨迹,并生成折线图;计算所述折线图的斜率,选取符合预设结果的斜率的范围对应的权重矩阵W_f的值,作为所述长短时记忆神经网络模型遗忘门的权重矩阵。5.如权利要求1所述的图像文字识别方法,其特征在于,在所述将所述目标图像的特征数组输入至长短时记忆神经网络模型的步骤之后;并且在所述对所述目标图像进行分类,获取目标分类结果的步骤之前,所述图像文字识别方法还包括:采用自适应时刻估计算法,迭代更新长短时记忆神经网络模型的网络权重。6.一种图像文字识别装置,其特征在于,包括:原始图像获取模块,用于获取原始图像,所述原始图像包含待识别文字;原始图像处理模块,用于对所述原始图像进行全局优化处理,获得目标图像;目标图像特征提取模块,用于将所述目标图像输入到卷积神经网络模型中进行特征提取,得到所述目标图像的特征数组;目标图像分类模块,用于将所述目标图像的特征数组输入至长短时记忆神经网络模型,设置用于图像分类的功能参数,对所述目标图像进行分类,获取目标分类结果;目标文字获取模块,用于根据所述目标分类结果确定所述目标图像的识别结果,基于所述目标图像对应的识别结果查询预设的语义库,获取与所述待识别文字相对应的目标文字。7.如权利要求6所述的图像文字识别装置,其特征在于,所述目标图像特征提取模块包括:图像数组获取单元,用于获取所述目标图像的图像数组;特征数组获取单元,用于将所述目标图像的图像数组输入到所述卷积神经网络模型,基于所述卷积神经网络模型的卷积和池化操作对所述目标图像进行特征提取,得到所述目标图像的特征数组。8.如权利要求7所述的图像文字识别装置,其特征在于,所述目标图像分类模块包括:目标特征数组输出值获取单元,用于将所述目标图像的特征数组输入到所述长短时记忆神经网络模型,并设置所述长短时记忆神经网络模型遗忘门的权重矩阵为[0.0-0.5],更新所述目标图像的特征数组,得到目标特征数组输出值;目标特征数组输出值分类单元,用于根据所述目标图像的图像数组的识别维度,选择与所述识别维度相对应的多次元函数作为所述目标特征数组输出值的分类函数,对所述目标特征数组输出值进行分类;目标分类结果获取单元,用于选取所述目标特征数组输出值中的最大输出值,根据所述最大输出值获取目标分类结果。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述图像文字识别方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像文字识别方法的步骤。

百度查询: 平安科技(深圳)有限公司 图像文字识别方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术