买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多尺度特征融合的网络图像文本识别方法及系统,所述方法包括:通过残差网络的U‑net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。本发明能同时完成网络图像文本的检测和识别,只使用少量额外训练数据即可提高网络图像文本识别的精确率。
主权项:1.一种基于多尺度特征融合的网络图像文本识别方法,其特征在于,至少包括步骤:通过残差网络的U-net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图,具体包括:对网络原始图片采用U-net网络结构,在自下而上的路径融合了132到14原始图片的分辨率特征,融合过程通过公式1和2表示: 上式1和2描述了上采样的过程,其中,ti是每一上采样层级输出的特征张量,ui是融合后的特征图,fi是正常卷积的特征张量,[ti-1;fi]表示上一层级的上采样结果和本层级特征进行连接融合;基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度,具体包括:采用全卷积网络用于文本检测,卷积输出的结果包括两部分:第一部分,完成分类任务的输出,生成文本得分图;分类任务的输出有1个通道,用于计算每个像素属于正样本的概率;第二部分,输出文本预测框;文本预测框的输出有5个通道,其中4个通道分别输出该像素与文本预测框的顶部、底部、左侧和右侧的距离,另外1个通道输出文本预测框水平角度;对每个正样本进行阈值化和非极大值抑制算法处理,得到最终文本检测结果,阈值化和非极大值抑制算法通过公式3表示: 上式中,B为当前得分最大的文本预测框,Nt为抑制阈值,si为分数,bi为同一文本行的其他文本预测框,iou等于B和bi的面积之和与B和bi的并集的面积之比;将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图,具体包括:步骤1:首先计算特征图仿射变换后,像素点和原像素点的位移偏差,作为仿射变换矩阵的平移变换参数,使变换前后的中心点对齐,计算通过公式4和5表示:Δx=lcosθ-tsinθ-x4Δy=tcosθ+lsinθ-y5上式中,Δx和Δy分别特征图中某个点仿射变换前后x轴和y轴上的位移偏差;然后通过固定高度ht计算特征图的缩放比例s,对宽度wt进行同比例的缩放,公式如6和7所示:s=htt+b6wt=s×l+r7最后结合文本预测框水平角度θ进行旋转变换,最终的仿射变换矩阵如公式8所示: 上式4-8中,M代表最终的仿射变换矩阵,ht和wt分别代表特征图仿射变换后的高度和宽度,x,y表示特征图中某个点的坐标,t、b、l、r分别表示点x,y到文本预测框的顶部、底部、左侧和右侧的距离,θ代表预测框水平角度;步骤2:利用上述仿射变换参数,得到最终的轴向对齐的特征图,通过公式8表示: 上式中,其中为仿射变换前某点的坐标,表示仿射变换后某点的坐标;对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
全文数据:
权利要求:
百度查询: 武汉科技大学 基于多尺度特征融合的网络图像文本识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。