买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯科技(深圳)有限公司
摘要:本申请公开了一种文档方向识别方法、装置及存储介质,该文档方向识别方法包括:获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待识别文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。
主权项:1.一种文档方向识别方法,其特征在于,包括:获取文档图像,所述文档图像中包括待识别文档;确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;确定每个所述图像块的信息含量值,包括:利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;确定每个所述热力图像中各像素点的第一像素值;根据所述第一像素值确定对应热力图像的第一像素平均值;根据所述第一像素平均值确定对应图像块的信息含量值;所述根据所述第一像素平均值确定对应图像块的信息含量值,包括:确定每个所述图像块中的连通域、以及每个所述连通域的区域面积;根据所述区域面积从所述连通域中确定目标连通域,并获取所述目标连通域的数量;根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值;所述根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值,包括:根据每个所述图像块中各个像素点的第二像素值确定对应图像块的第二像素平均值;根据所述第二像素平均值和第二像素值确定对应图像块的像素标准差值;根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及所述目标连通域的数量,确定对应图像块的信息含量值;根据所述信息含量值和所述图像块识别所述待识别文档在所述文档图像中的方向。
全文数据:文档方向识别方法、装置及存储介质技术领域本申请涉及通信技术领域,尤其涉及一种文档方向识别方法、装置及存储介质。背景技术文档图像文字处理的目的是在数字图像中识别文字、图形和图片,并按照需要提取信息。其中,文字处理主要包括:先进行版面分析,以切分出段落、行和单字等,然后进行OCROpticalCharacterRecognition,光学字符识别识别。在现有OCR识别过程中,文本图像中的文本经常会出现一定角度的倾斜,比如由于扫描时用户操作不当,致使扫描图像中的文本水平倾斜了90度,而通常情况下,3度以上的倾斜会引起字符明显变形,也即这种文本倾斜现象会导致在进行OCR识别时,字符分割步骤发生困难,使OCR识别过程难以顺利完成。因此,如何快速准确的检测出倾斜文本图像的倾角,进而对倾斜的文本图像进行校正,是当今OCR识别技术在运用前的一项重要预处理技术。发明内容本申请实施例提供一种文档方向识别方法、装置及存储介质,能快速实现对文档方向的精准识别,准确率高。本申请实施例提供了一种文档方向识别方法,包括:获取文档图像,所述文档图像中包括待识别文档;确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;确定每个所述图像块的信息含量值;根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。本申请实施例还提供了一种文档方向识别装置,包括:获取模块,用于获取文档图像,所述文档图像中包括待识别文档;第一确定模块,用于确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;第二确定模块,用于确定每个所述图像块的信息含量值;识别模块,用于根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。进一步地,所述第二确定模块具体包括:第一确定子模块,用于利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;第二确定子模块,用于确定每个所述热力图像中各像素点的第一像素值;第三确定子模块,用于根据所述第一像素值确定对应热力图像的第一像素平均值;第四确定子模块,用于根据所述第一像素平均值确定对应图像块的信息含量值。进一步地,所述第四确定子模块具体用于:确定每个所述图像块中的连通域、以及每个所述连通域的区域面积;根据所述区域面积从所述连通域中确定目标连通域,并获取所述目标连通域的数量;根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值。进一步地,所述第四确定子模块具体用于:根据所述第二像素值确定对应图像块的第二像素平均值;根据所述第二像素平均值和第二像素值确定对应图像块的像素标准差值;根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及所述目标连通域的数量,确定对应图像块的信息含量值。进一步地,所述识别模块具体用于:根据所述信息含量值从所述多个图像块中确定目标图像块;利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角;根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向。进一步地,所述识别模块具体用于:将所述信息含量值进行求和,得到和值;根据所述和值和信息含量值确定每个所述目标图像块的权重值;根据所述权重值对所述阅读方向角进行加权计算,得到目标方向角,并将所述目标方向角指示的方向作为所述待处理文档在所述文档图像中的方向。进一步地,所述网络模型包括残差网络模型和注意力模型,所述识别模块具体用于:将每个所述目标图像块输入已训练的残差网络模型中,以对所述目标图像块进行处理,所述残差网络模型包括至少四层残差块;在处理过程中,获取输入第二层残差块中的第一特征图;将获取的所述第一特征图输入已训练的注意力模型中,得到注意力图像;获取从第三层残差块中输出的第二特征图;对所述第二特征图和注意力图进行点乘运算,得到第三特征图;将所述第三特征图输入第四层残差块中,以得到阅读方向角。本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述任一项文档方向识别方法。本申请提供的文档方向识别方法、装置及存储介质,通过获取文档图像,该文档图像中包括待识别文档,之后确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后确定每个该图像块的信息含量值,并根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。附图说明下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。图1为本申请实施例提供的文档方向识别系统的场景示意图。图2为本申请实施例提供的文档方向识别方法的流程示意图。图3为本申请实施例提供的文档方向识别方法的另一流程示意图。图4为本申请实施例提供的步骤S1034的流程示意图。图5为本申请实施例提供的文档方向识别流程的框架示意图。图6为本申请实施例提供的医疗文档识别过程的流程示意图。图7为本申请实施例提供的文档方向识别装置的另一结构示意图。图8为本申请实施例提供的文档方向识别装置的结构示意图。图9为本申请实施例提供的电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供一种文档方向识别方法、装置、存储介质及电子设备。请参阅图1,图1为文档方向识别系统的场景示意图,该文档方向识别系统可以包括本申请实施例提供的任一种文档方向识别装置,该文档方向识别装置可以集成在电子设备,比如移动终端或服务器中。该电子设备可以获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。其中,该待识别文档可以包括文字和或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如1和0。该信息含量值主要指有效信息比如文字、图像的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。譬如,在图1中,当需要对医疗文档的扫描图像进行方向纠正时,可以先将该扫描图像转化为灰度图,并对该灰度图二值化得到二值图像,之后,可以通过随机或者指定选取方式从该二值图像中选取出一定数量的图像块,该指定选取方式可以是基于图像位置而设定的,比如选取图像正中区域的图像块,该数量可以人为设定,比如20个,之后,可以确定每个图像块的信息含量值,并根据信息含量值和图像块来确定医疗文档的阅读方向角,比如90°,也即医疗文档的方向。如图2所示,图2是本申请实施例提供的文档方向识别方法的流程示意图,该文档方向识别方法具体流程可以如下:S101.获取文档图像,该文档图像中包括待识别文档。本实施例中,该待识别文档可以包括文字和或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。S102.确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块。本实施例中,该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如0和255。具体的,可以先将该文档图像转化为灰度图,再对该灰度图二值化得到二值图像。该图像块的数量和大小可以人为提前设定,比如数量为20个,大小为448像素*448像素,可以通过随机函数来随机选取图像块,也可以基于图像位置来选取,比如选取图像正中区域、三分之一区域等位置处的图像块。S103.确定每个该图像块的信息含量值。本实施例中,该信息含量值主要指有效信息的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。例如,请参见图3,上述步骤S103具体可以包括:S1031.利用已训练的全卷积网络模型确定每个该图像块对应的热力图像。本实施例中,该热力图像和图像块通常尺寸相同,像素点个数也相同。该热力图像实际上是概率图,用于指示包含有效信息分布的矩阵,其在包含有效信息比如文字、图像处,值趋于1,在包含无效信息比如空白内容处,值趋于0。S1032.确定每个该热力图像中各像素点的第一像素值。S1033.根据该第一像素值确定对应热力图像的第一像素平均值。本实施例中,该第一像素值的取值范围为[0,1],该第一像素平均值其中,n为热力图像中像素点的个数,hi为热力图上第i个像素点的第一像素值。S1034.根据该第一像素平均值确定对应图像块的信息含量值。本实施例中,可以直接将第一像素平均值作为对应图像块的信息含量值,也可以结合其他参考因素来确定信息含量值,比如,请参见图4,上述步骤S1034进一步可以包括:1-1.确定每个该图像块中的连通域、以及每个该连通域的区域面积。本实施例中,连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域,该区域面积通常指每个连通域所包含像素点的数量。比如,对于二值图像,该连通域为像素值为0或者255的相邻像素点组成的图像区域。具体的,可以借助OpenCV开源计算机视觉库来确定图像块中的连通域,之后基于每个连通域中像素点的个数确定该连通域的区域面积。1-2.根据该区域面积从该连通域中确定目标连通域,并获取该目标连通域的数量。本实施例中,为了防止椒盐噪声和无效信息的干扰,对于区域面积较小或者过大的连通域,比如区域面积小于4个像素点,或者区域面积不小于该小图像块整体面积的13,可以不进行后续分析,与此同时,对于像素值均为0也即空白的连通域,由于不包含有效信息,也可以不进行后续分析,也即将区域面积在规定范围内、且像素值非0的连通域作为目标连通域。1-3.根据该第一像素平均值、以及该目标连通域的数量确定对应图像块的信息含量值。本实施例中,可以直接根据目标连通域的数量以及热力图的第一像素平均值这两个参考因素来确定图像块的信息含量值,比如对第一像素平均值S4和目标连通域的数量S3进行加权计算,得到的数值作为信息含量值,或者,也可以结合其他参考因素来确定,此时,该步骤1-3进一步可以包括:根据该第二像素值确定对应图像块的第二像素平均值;根据该第二像素平均值和第二像素值确定对应图像块的像素标准差值;根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及该目标连通域的数量,确定对应图像块的信息含量值。本实施例中,该第二像素平均值该像素标准差值其中n为图像块中像素点的个数,Pi为第i个像素点的第二像素值。该信息含量值Sfinal的计算公式可以为其中,S1为第二像素平均值,S2为像素标准差值,S3为目标连通域的数量,S4为第一像素平均值,λi为对应的预设权重值。需要指出的是,在确定单个图像块的信息含量值时,可以将S1~S4同时作为参考因素,也可以单独将其中之一作为参考因素,还可以将任意两个或者三个作为参考因素。当将S1~S4其中之一作为参考因素时,可以直接将其数值作为信息含量值,当将S1~S4中的任意两个或者三个或者全部作为参考因素时,可以通过加权算法计算信息含量值。S104.根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。本实施例中,可以根据所有图像块来确定文档方向,比如计算信息含量值的比值,并利用已训练的网络模型确定每个图像块对应的阅读方向角,之后根据该比值对阅读方向角进行加权计算,得到的方向角即代表了文档方向,或者,也可以选取部分图像块来确定文档方向,此时,在该图3中,上述步骤S104具体可以包括:S1041.根据该信息含量值从该多个图像块中确定目标图像块。本实施例中,可以选取信息含量值高于一定值的图像块作为目标图像块,或者将信息含量值按照大小进行排序,选取排位靠前的几个信息含量值对应的图像块作为目标图像块。S1042.利用已训练的网络模型确定每个该目标图像块对应的阅读方向角。本实施例中,该网络模型主要为机器学习MachineLearning,ML模型,其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,该网络模型可以包括残差网络ResidualNetworks,ResNet模型和注意力模型AttentionModel,其中,该残差网络模型可以包括多层残差块,在多层残差块间采用跳连接方式接入注意力模型,该注意力模型可以包括U-Net神经网络和sigmoid逻辑函数,该注意力模型主要起到权重的作用,用于指示网络下游结构应当注意的区域。通过在残差网络模型中引入注意力模型,该注意力模型能从上游特征图上获得注意力图,并对下游非有效信息进行抑制,有利于整个网络模型学习到具有有效信息的特征,提高阅读方向角识别的准确性。需要说明的是,除了利用已训练的网络模型来识别目标图像块的方向角,还可以利用投影法或者其他方向识别方法来识别,此处不做限定。例如,该残差块的层数可以是四层,此时,上述步骤S1042具体可以包括:将每个该目标图像块输入已训练的残差网络模型中,以对该目标图像块进行处理,该残差网络模型包括至少四层残差块;在处理过程中,获取输入第二层残差块中的第一特征图;将获取的该第一特征图输入已训练的注意力模型中,得到注意力图像;获取从第三层残差块中输出的第二特征图;对该第二特征图和注意力图进行点乘运算,得到第三特征图;将该第三特征图输入第四层残差块中,以得到阅读方向角。本实施例中,请参见图3,该残差网络模型包括输入层、四个残差块层以及输出层,该注意力模型采用跳连接方式与第二层残差块以及第三层残差块的输出端相连,从而在对目标图像块处理的过程中,目标图像块会先经由残差网络的输入端输入,并依次传递至第一层残差块和第二层残差块进行处理,处理后的数据也即第一特征图同时传递至第三层残差块和注意力模型中进行处理,分别得到第二特征图和注意力图像,其中,注意力图像上像素值的取值范围限定为[0,1],通道数为1,且这两个图像具有相同尺寸,之后,将这两个图像进行点乘,得到第三特征图,并作为输入数据传送至第四残差块中进行处理,最终经由输出端输出阅读方向角。需要说明的是,该残差网络模型和注意力模型应当是提前训练好的,比如提前准备图像样本集,并标注出每个图像样本的阅读方向角,与此同时,将残差网络模型和注意力模型按照要求组合连接好,之后将图像样本集和标注输入组合好的模型中进行训练,得到训练后的网络模型。S1043.根据该阅读方向角和信息含量值识别该待处理文档在该文档图像中的方向。例如,上述步骤S1043具体可以包括:2-1.将该信息含量值进行求和,得到和值;2-2.根据该和值和信息含量值确定每个该目标图像块的权重值;2-3.根据该权重值对该阅读方向角进行加权计算,得到目标方向角,并将该目标方向角指示的方向作为该待处理文档在该文档图像中的方向。本实施例中,权重值其中,h为目标图像块的总数量,wi为第i个目标图像块的权重值,为第i个目标图像块的信息含量值。目标方向角其中Vi为第i个目标图像块的阅读方向角。以下将以文档方向识别方法应用于电子设备、待识别文档为医疗文档为例,对文档方向识别方法的流程进行简单介绍。请参见图5,该流程处理框架包括三个部分:数据集、评分器和网络模型,具体的,当需要对文档图像中的医疗文档进行方向识别时,数据集可以先对文档图像进行预处理,比如将文档图像转化为灰度图,并对该灰度图二值化得到二值图像,之后,通过随机函数从二值图像上随机获取20个小图像块B1~B20请参见图6,而评分器会确定每个小图像块的四个分数值,比如像素平均值S1、像素标准差值S2、目标连通域的数量S3、以及对应热力图的像素平均值S4,其中,可以直接根据小图像块中像素点的像素值计算像素平均值S1和像素标准差值S2,同时,借助OpenCV来确定每个小图像块中的连通域,并选取区域面积在规定范围内且像素值非0的连通域作为目标连通域,将该目标连通域的数量作为S3,同时,利用已训练的全卷积网络模型获取每个小图像块对应的热力图像,并根据热力图像中像素点的像素值计算像素平均值S4,之后通过公式计算每个小图像块的综合评分Sfinal也即信息含量值,其中,λ为对应的预设权重值,选取综合评分最高的前8个小图像块,比如B1、B2…B5和B20,之后,通过已训练的网络模型残差网络模型和注意力模型识别这8个小图像块的阅读方向角Vi,比如B1的阅读方向角V1为90°,B2的阅读方向角V2为270°等等,之后,根据这8个小图像块的综合评分Sfinal计算各自的权重值,其中权重值比如B1的权重值w1为0.75,B2的权重值w2为0.20等等,之后,计算文档图像中医疗文档的目标方向角比如,V=0.75*90°+0.20*270°+…=90°,之后,判断目标目标方向角是否在一定范围内,比如-5°~5°,若是,则不需要进行方向纠正,结束流程,若否,则对其进行方向纠正,比如将文档图像翻转90°,便于进行后续光学字符识别操作。由上述可知,本申请提供的文档方向识别方法,通过获取文档图像,该文档图像中包括待识别文档,之后确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后确定每个该图像块的信息含量值,并根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。根据上述实施例所描述的方法,本实施例将从文档方向识别装置的角度进一步进行描述,该文档方向识别装置具体可以作为独立的实体来实现,也可以集成在电子设备中来实现。请参阅图7,图7具体描述了本申请实施例提供的文档方向识别装置,应用于电子设备,该文档方向识别装置可以包括:获取模块10、第一确定模块20、第二确定模块30和识别模块40,其中:1获取模块10获取模块10,用于获取文档图像,该文档图像中包括待识别文档。本实施例中,该待识别文档可以包括文字和或图像,该文档图像可以是通过扫描设备或者拍照设备对该待识别文档处理后得到的。2第一确定模块20第一确定模块20,用于确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块。本实施例中,该二值图像是指图像上的每一个像素点只有两种可能的取值或者灰度等级状态,如0和255。具体的,可以先将该文档图像转化为灰度图,再对该灰度图二值化得到二值图像。该图像块的数量和大小可以人为提前设定,比如数量为20个,大小为448像素*448像素,可以通过随机函数来随机选取图像块,也可以基于图像位置来选取,比如选取图像正中区域、三分之一区域等位置处的图像块。3第二确定模块30第二确定模块30,用于确定每个该图像块的信息含量值。本实施例中,该信息含量值主要指有效信息的含有量,通常,信息含量值越大,表明空白区域越小,有效信息的含有量越多。例如,请参见图8,该第二确定模块30具体包括:第一确定子模块31,用于利用已训练的全卷积网络模型确定每个该图像块对应的热力图像。本实施例中,该热力图像和图像块通常尺寸相同,像素点个数也相同。该热力图像实际上是概率图,用于指示包含有效信息分布的矩阵,其在包含有效信息比如文字、图像处,值趋于1,在包含无效信息比如空白内容处,值趋于0。第二确定子模块32,用于确定每个该热力图像中各像素点的第一像素值。第三确定子模块33,用于根据该第一像素值确定对应热力图像的第一像素平均值。本实施例中,该第一像素值的取值范围为[0,1],该第一像素平均值其中,n为热力图像中像素点的个数,hi为热力图上第i个像素点的第一像素值。第四确定子模块34,用于根据该第一像素平均值确定对应图像块的信息含量值。本实施例中,可以直接将第一像素平均值作为对应图像块的信息含量值,也可以结合其他参考因素来确定信息含量值,比如,上述步骤S1034进一步可以包括:1-1.确定每个该图像块中的连通域、以及每个该连通域的区域面积。本实施例中,连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域,该区域面积通常指每个连通域所包含像素点的数量。比如,对于二值图像,该连通域为像素值为0或者255的相邻像素点组成的图像区域。具体的,可以借助OpenCV开源计算机视觉库来确定图像块中的连通域,之后基于每个连通域中像素点的个数确定该连通域的区域面积。1-2.根据该区域面积从该连通域中确定目标连通域,并获取该目标连通域的数量。本实施例中,为了防止椒盐噪声和无效信息的干扰,对于区域面积较小或者过大的连通域,比如区域面积小于4个像素点,或者区域面积不小于该小图像块整体面积的13,可以不进行后续分析,与此同时,对于像素值均为0也即空白的连通域,由于不包含有效信息,也可以不进行后续分析,也即将区域面积在规定范围内、且像素值非0的连通域作为目标连通域。1-3.根据该第一像素平均值、以及该目标连通域的数量确定对应图像块的信息含量值。本实施例中,可以直接根据目标连通域的数量以及热力图的第一像素平均值这两个参考因素来确定图像块的信息含量值,比如对第一像素平均值S4和目标连通域的数量S3进行加权计算,得到的数值作为信息含量值,或者,也可以结合其他参考因素来确定,此时,该步骤1-3进一步可以包括:根据该第二像素值确定对应图像块的第二像素平均值;根据该第二像素平均值和第二像素值确定对应图像块的像素标准差值;根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及该目标连通域的数量,确定对应图像块的信息含量值。本实施例中,该第二像素平均值该像素标准差值其中n为图像块中像素点的个数,Pi为第i个像素点的第二像素值。该信息含量值Sfinal的计算公式可以为其中,S1为第二像素平均值,S2为像素标准差值,S3为目标连通域的数量,S4为第一像素平均值,λi为对应的预设权重值。需要指出的是,在确定单个图像块的信息含量值时,可以将S1~S4同时作为参考因素,也可以单独将其中之一作为参考因素,还可以将任意两个或者三个作为参考因素。当将S1~S4其中之一作为参考因素时,可以直接将其数值作为信息含量值,当将S1~S4中的任意两个或者三个或者全部作为参考因素时,可以通过加权算法计算信息含量值。4识别模块40识别模块40,用于根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。本实施例中,可以根据所有图像块来确定文档方向,比如计算信息含量值的比值,并利用已训练的网络模型确定每个图像块对应的阅读方向角,之后根据该比值对阅读方向角进行加权计算,得到的方向角即代表了文档方向,或者,也可以选取部分图像块来确定文档方向,此时,该识别模块40具体可以用于:S1041.根据该信息含量值从该多个图像块中确定目标图像块。本实施例中,可以选取信息含量值高于一定值的图像块作为目标图像块,或者将信息含量值按照大小进行排序,选取排位靠前的几个信息含量值对应的图像块作为目标图像块。S1042.利用已训练的网络模型确定每个该目标图像块对应的阅读方向角。本实施例中,该网络模型主要为机器学习MachineLearning,ML模型,其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,该网络模型可以包括残差网络ResidualNetworks,ResNet模型和注意力模型AttentionModel,其中,该残差网络模型可以包括多层残差块,在多层残差块间采用跳连接方式接入注意力模型,该注意力模型可以包括U-Net神经网络和sigmoid逻辑函数,该注意力模型主要起到权重的作用,用于指示网络下游结构应当注意的区域。通过在残差网络模型中引入注意力模型,该注意力模型能从上游特征图上获得注意力图,并对下游非有效信息进行抑制,有利于整个网络模型学习到具有有效信息的特征,提高阅读方向角识别的准确性。例如,该残差块的层数可以是四层,此时,上述步骤S1042具体可以包括:将每个该目标图像块输入已训练的残差网络模型中,以对该目标图像块进行处理,该残差网络模型包括至少四层残差块;在处理过程中,获取输入第二层残差块中的第一特征图;将获取的该第一特征图输入已训练的注意力模型中,得到注意力图像;获取从第三层残差块中输出的第二特征图;对该第二特征图和注意力图进行点乘运算,得到第三特征图;将该第三特征图输入第四层残差块中,以得到阅读方向角。本实施例中,请参见图3,该残差网络模型包括输入层、四个残差块层以及输出层,该注意力模型采用跳连接方式与第二层残差块以及第三层残差块的输出端相连,从而在对目标图像块处理的过程中,目标图像块会先经由残差网络的输入端输入,并依次传递至第一层残差块和第二层残差块进行处理,处理后的数据也即第一特征图同时传递至第三层残差块和注意力模型中进行处理,分别得到第二特征图和注意力图像,其中,注意力图像上像素值的取值范围限定为[0,1],通道数为1,且这两个图像具有相同尺寸,之后,将这两个图像进行点乘,得到第三特征图,并作为输入数据传送至第四残差块中进行处理,最终经由输出端输出阅读方向角。需要说明的是,该残差网络模型和注意力模型应当是提前训练好的,比如提前准备图像样本集,并标注出每个图像样本的阅读方向角,与此同时,将残差网络模型和注意力模型按照要求组合连接好,之后将图像样本集和标注输入组合好的模型中进行训练,得到训练后的网络模型。S1043.根据该阅读方向角和信息含量值识别该待处理文档在该文档图像中的方向。例如,在执行上述步骤S1043时,该识别模块40进一步可以用于:2-1.将该信息含量值进行求和,得到和值;2-2.根据该和值和信息含量值确定每个该目标图像块的权重值;2-3.根据该权重值对该阅读方向角进行加权计算,得到目标方向角,并将该目标方向角指示的方向作为该待处理文档在该文档图像中的方向。本实施例中,权重值其中,h为目标图像块的总数量,wi为第i个目标图像块的权重值,为第i个目标图像块的信息含量值。目标方向角其中Vi为第i个目标图像块的阅读方向角。具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。由上述可知,本实施例提供的文档方向识别装置,通过获取模块10获取文档图像,该文档图像中包括待识别文档,之后第一确定模块20确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块,之后第二确定模块30确定每个该图像块的信息含量值,识别模块40根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向,从而能快速实现对文档方向的精准识别,方法简单,识别效果好。相应的,本发明实施例还提供一种文档方向识别系统,包括本发明实施例所提供的任一种文档方向识别装置,该文档方向识别装置可以集成在电子设备中。其中,电子设备可以获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。以上各个设备的具体实施可参见前面的实施例,在此不再赘述。由于该文档方向识别系统可以包括本发明实施例所提供的任一种文档方向识别装置,因此,可以实现本发明实施例所提供的任一种文档方向识别装置所能实现的有益效果,详见前面的实施例,在此不再赘述。相应的,本发明实施例还提供一种电子设备,如图9所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频RadioFrequency,RF电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序比如声音播放功能、图像播放功能等等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块SIM卡、收发信机、耦合器、低噪声放大器LNA,LowNoiseAmplifier、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统GSM,GlobalSystemofMobilecommunication、通用分组无线服务GPRS,GeneralPacketRadioService、码分多址CDMA,CodeDivisionMultipleAccess、宽带码分多址WCDMA,WidebandCodeDivisionMultipleAccess、长期演进LTE,LongTermEvolution、电子邮件、短消息服务SMS,ShortMessagingService等。电子设备还包括给各个部件供电的电源404比如电池,优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该电子设备还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作,并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键比如音量控制按键、开关按键等、轨迹球、鼠标、操作杆等中的一种或多种。该电子设备还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器LCD,LiquidCrystalDisplay、有机发光二极管OLED,OrganicLight-EmittingDiode等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:获取文档图像,该文档图像中包括待识别文档;确定该文档图像对应的二值图像,并从该二值图像中选取多个图像块;确定每个该图像块的信息含量值;根据该信息含量值和该图像块识别该待处理文档在该文档图像中的方向。该电子设备可以实现本发明实施例所提供的任一种文档方向识别装置所能实现的有效效果,详见前面的实施例,在此不再赘述。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器ROM,ReadOnlyMemory、随机存取记忆体RAM,RandomAccessMemory、磁盘或光盘等。以上对本发明实施例所提供的一种文档方向识别方法、装置、存储介质和电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求:1.一种文档方向识别方法,其特征在于,包括:获取文档图像,所述文档图像中包括待识别文档;确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;确定每个所述图像块的信息含量值;根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。2.根据权利要求1所述的文档方向识别方法,其特征在于,所述确定每个所述图像块的信息含量值,包括:利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;确定每个所述热力图像中各像素点的第一像素值;根据所述第一像素值确定对应热力图像的第一像素平均值;根据所述第一像素平均值确定对应图像块的信息含量值。3.根据权利要求2所述的文档方向识别方法,其特征在于,所述根据所述第一像素平均值确定对应图像块的信息含量值,包括:确定每个所述图像块中的连通域、以及每个所述连通域的区域面积;根据所述区域面积从所述连通域中确定目标连通域,并获取所述目标连通域的数量;根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值。4.根据权利要求3所述的文档方向识别方法,其特征在于,所述根据所述第一像素平均值、以及所述目标连通域的数量确定对应图像块的信息含量值,包括:根据所述第二像素值确定对应图像块的第二像素平均值;根据所述第二像素平均值和第二像素值确定对应图像块的像素标准差值;根据同一图像块对应的第一像素平均值、第二像素平均值、像素标准差值以及所述目标连通域的数量,确定对应图像块的信息含量值。5.根据权利要求1-4中任意一项所述的文档方向识别方法,其特征在于,所述根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向,包括:根据所述信息含量值从所述多个图像块中确定目标图像块;利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角;根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向。6.根据权利要求5所述的文档方向识别方法,其特征在于,所述根据所述阅读方向角和信息含量值识别所述待处理文档在所述文档图像中的方向,包括:将所述信息含量值进行求和,得到和值;根据所述和值和信息含量值确定每个所述目标图像块的权重值;根据所述权重值对所述阅读方向角进行加权计算,得到目标方向角,并将所述目标方向角指示的方向作为所述待处理文档在所述文档图像中的方向。7.根据权利要求5所述的文档方向识别方法,其特征在于,所述网络模型包括残差网络模型和注意力模型,所述利用已训练的网络模型确定每个所述目标图像块对应的阅读方向角,包括:将每个所述目标图像块输入已训练的残差网络模型中,以对所述目标图像块进行处理,所述残差网络模型包括至少四层残差块;在处理过程中,获取输入第二层残差块中的第一特征图;将获取的所述第一特征图输入已训练的注意力模型中,得到注意力图像;获取从第三层残差块中输出的第二特征图;对所述第二特征图和注意力图进行点乘运算,得到第三特征图;将所述第三特征图输入第四层残差块中,以得到阅读方向角。8.一种文档方向识别装置,其特征在于,包括:获取模块,用于获取文档图像,所述文档图像中包括待识别文档;第一确定模块,用于确定所述文档图像对应的二值图像,并从所述二值图像中选取多个图像块;第二确定模块,用于确定每个所述图像块的信息含量值;识别模块,用于根据所述信息含量值和所述图像块识别所述待处理文档在所述文档图像中的方向。9.根据权利要求8所述的文档方向识别装置,其特征在于,所述第二确定模块具体包括:第一确定子模块,用于利用已训练的全卷积网络模型确定每个所述图像块对应的热力图像;第二确定子模块,用于确定每个所述热力图像中各像素点的第一像素值;第三确定子模块,用于根据所述第一像素值确定对应热力图像的第一像素平均值;第四确定子模块,用于根据所述第一像素平均值确定对应图像块的信息含量值。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1至7任一项所述的文档方向识别方法。
百度查询: 腾讯科技(深圳)有限公司 文档方向识别方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。