首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种票证识别的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京大学

摘要:本发明公开了一种票证识别的方法,涉及文本检测、文本识别与信息结构化提取技术领域,解决了现有模型不能有效提取结构化信息的技术问题,其技术方案要点是通过对CTPN网络进行训练得到文本行位置检测模型,从而对票证中的关键信息进行定位,且对各种形式表格等的票证具有鲁棒性;通过高频词及其中特定字段文本内容的规则合成数据,扩充了文本识别模型的训练数据,提升了识别模型的准确性;基于卷积神经网络,具有很好的并行性,可以利用高性能的GPUGraphicsProcessingUnit,图形处理器加速计算。

主权项:1.一种票证识别的方法,其特征在于,模型训练过程和文本识别过程,所述模型训练过程包括:S100:收集用于文本行检测与文本图像识别的数据;其中,所述数据包括文本行图像;S101:收集在各类票证场景下出现的高频词,通过所述高频词建立关键词数据库,并统计所述高频词中字段文本内容的规则,根据所述高频词和所述规则随机生成扩充数据;S102:通过所述文本行图像对CTPN网络进行训练,得到文本行位置检测模型;S103:通过所述数据和所述扩充数据对识别网络进行训练,得到带有自注意力机制的文本识别模型;所述文本识别过程包括:S200:将票证的图像输入到文本行位置检测模型,所述文本行位置检测模型对票证中的文本行位置进行检测,输出检测到文本行位置的文本图像;S201:将所述文本图像输入到文本识别模型进行文本识别,通过文本识别模型的自注意力机制对所述文本进行识别后得到识别结果,根据所述关键词数据库对所述识别结果进行结构化提取,得到有效信息;其中,所述步骤S101中,根据所述高频词和所述规则随机生成扩充数据,包括:将词频不小于预设阈值的所述高频词进行组合生成文本;将所述文本组合成符合票证中文本的特定格式;随机选取空白或带有噪声的图像作为背景,将符合特定格式的所述文本渲染到图像上,得到所述文本的图像,即得到所述扩充数据;所述步骤S102包括:S102-1:所述CTPN网络包括依次连接的卷积神经网络、LSTM网络和一个1×1卷积层;每个文本行包括至少两个文本行部件,在所述卷积神经网络中预设多个宽度固定为16、高度不同的预设锚框用于定位所述文本行部件;S102-2:所述CTPN网络训练的初始学习率为0.001,动量为0.9,将所述文本行图像投入到所述CTPN网络进行训练;在所述CTPN网络的前向传播过程中,首先通过所述卷积神经网络对输入的所述文本行图像进行特征提取,得到大小为N×C×H×W的第一特征图,然后在所述第一特征图上对应每个预设锚框的位置处使用3×3卷积得到大小为N×9C×H×W的第二特征图,随后将所述第二特征图的维度变换为NH×W×9C,再将维度为NH×W×9C的第二特征图送入所述LSTM网络中学习所述第二特征图中每一行的序列特征,得到输出为NH×W×256的第三特征图,并将所述第三特征图的维度变换为N×512×H×W,最后将维度为N×512×H×W的第三特征图投入到1×1卷积层卷积后得到预测结果;其中,N表示每次处理的文本行图像的数量,H表示文本行图像的高度,W表示文本行图像的宽度,C表示文本行图像在网络前向传播中的通道数;S102-3:得到所述预测结果后,按照第一损失函数计算CTPN网络的损失,再使用优化器SGD对CTPN网络的参数进行更新,再将所述文本行图像投入到更新参数后的CTPN网络进行训练,反复重复这一过程,直至得到最佳预测结果,保存所述最佳预测结果对应的最佳模型参数,即得到所述文本行位置检测模型;其中,所述第一损失函数为:Loss=λv×Lv+λconf×Lconf+λx×Lx,其中,Lv表示纵坐标损失,即预设锚框中心点坐标和高度与实际锚框中心点坐标和高度之间的损失函数SmoothL1Loss;Lconf表示置信度损失,即预设锚框置信度与实际锚框之间是否含有文本行部件的二元交叉熵损失;Lx表示横坐标偏移损失,即预测锚框中文本行的横向坐标、宽度的偏移值与实际锚框中文本行的横向坐标、宽度的偏移值之间的损失函数SmoothL1Loss;λv、λconf、λx表示权重;所述文本行部件在每个所述预设锚框位置处的输出结果包括:vj、vh、si、xside,其中,vj、vh表示所述预设锚框的中心点坐标和高度,si表示预设锚框中包括的文本行部件的置信度,xside表示所述文本行部件的横向坐标和宽度的偏移值;所述步骤S103包括:S103-1:所述识别网络包括依次连接的特征提取网络、特征融合网络、编码网络、一层的全连接层和解码算法;S103-2:所述识别网络的初始学习率为0.0001,优化器Adam的贝塔值为0.9,0.999,将所述数据和所述扩充数据投入到所述识别网络进行训练;在所述识别网络的前向传播过程中,将大小为H×W的图像通过所述特征提取网络进行特征提取,得到第一特征;再通过所述特征融合网络对所述第一特征进行融合,并对融合后的所述第一特征进行采样使融合后的所述第一特征的高度为1,得到第二特征;将所述第二特征输入到所述编码网络进行编码得到编码特征;将所述编码特征输入到所述全连接层进行解码,得到解码结果;最后通过所述解码算法对所述解码结果进行对齐得到识别结果;其中,所述特征提取网络为Resnet50网络,所述特征融合网络为FPEM网络,所述编码网络为Encoder网络,所述解码算法为CTC算法,所述CTC算法的损失函数为Y表示所述解码结果,Y'表示经过正确标注的所述识别结果,t表示所述编码特征的序列长度,k表示所述CTC网络的对齐函数,C:kc=Y'表示集合C中的所有序列c都可以通过CTC算法得到正确标注的识别结果Y',p表示概率,pct|Y表示在Y的前提下得到长度为t的序列ct的概率;S103-3:得到所述识别结果后,通过所述CTC算法的损失函数计算所述识别网络的损失,再使用优化器Adam对识别网络的参数进行更新,再将所述数据和所述扩充数据投入到更新参数后的识别网络进行训练,反复重复这一过程,直至得到最佳识别结果,保存所述最佳识别结果对应的最佳模型参数,即得到所述文本识别模型。

全文数据:

权利要求:

百度查询: 南京大学 一种票证识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。