买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京三快在线科技有限公司
摘要:本申请公开了一种基于渐进式编码的文字识别方法,属于计算机技术领域,有助于提升图像中文字识别的准确率。所述文字识别方法包括:预先训练包括:级联的至少三个编码模块,以及,与每个所述编码模块对应的一个解码模块的编码‑解码网络模型,并在预测阶段,依次执行所述至少三个编码模块,对目标图像进行渐进深度的特征编码,分别得到每个所述编码模块的编码输出;分别执行每个所述解码模块,对相应所述编码模块的所述编码输出进行解码,得到各所述解码模块对所述目标图像的文字识别结果;对各所述解码模块对所述目标图像的文本识别结果进行融合处理,确定所述编码‑解码网络模型对所述目标图像的文字识别结果,提升了图像中的文字进行识别的准确率。
主权项:1.一种基于渐进式编码的文字识别方法,其特征在于,预先训练的编码-解码网络模型包括:级联的至少三个编码模块,以及,与每个所述编码模块对应的一个解码模块,所述方法包括:依次执行所述至少三个编码模块,对目标图像进行渐进深度的特征编码,分别得到每个所述编码模块的编码输出;分别执行每个所述解码模块,对相应所述编码模块的所述编码输出进行解码,得到各所述解码模块对所述目标图像的文字识别结果;对各所述解码模块对所述目标图像的文本识别结果进行融合处理,确定所述编码-解码网络模型对所述目标图像的文字识别结果;所述至少三个编码模块包括:第一编码模块、第二编码模块和第三编码模块,所述解码模块包括:与所述第一编码模块对应的第一解码模块、与所述第二编码模块对应的第二解码模块、与所述第三编码模块对应的第三解码模块;所述依次执行所述至少三个编码模块,对目标图像进行渐进深度的特征编码,分别得到每个所述编码模块的编码输出的步骤,包括:执行所述第一编码模块,对所述目标图像中的视觉特征进行编码,输出第一特征向量;执行所述第二编码模块,对所述第一特征向量进行特征对齐处理,输出第二特征向量;执行所述第三编码模块,对所述第二特征向量进行语义特征编码,输出第三特征向量;所述编码-解码网络模型通过以下方法训练:对于每个训练样本图像,分别执行以下编码和解码操作:依次执行所述至少三个编码模块,对所述训练样本图像进行渐进深度的特征编码,分别得到每个所述编码模块对所述训练样本图像的编码输出;分别执行每个所述解码模块,对相应所述编码模块对所述训练样本图像的所述编码输出进行解码,得到各所述解码模块对所述训练样本图像的文字预测结果;对于每个所述训练样本图像,根据各所述解码模块对所述训练样本图像的文字预测结果与所述训练样本图像对应的文字真实值的差值,计算所述训练样本图像的预测误差,并根据所有所述训练样本图像的所述预测误差,确定所述编码-解码网络模型的损失值;通过优化所述编码-解码网络模型的模型参数,对所述编码-解码网络模型进行迭代训练,以优化所述损失值;所述依次执行所述至少三个编码模块,对所述训练样本图像进行渐进深度的特征编码,分别得到每个所述编码模块对所述训练样本图像的编码输出的步骤,包括:执行所述第一编码模块,对所述训练样本图像中的视觉特征进行编码,输出所述训练样本图像对应的第一特征向量;所述分别执行每个所述解码模块,对相应所述编码模块对所述训练样本图像的所述编码输出进行解码,得到各所述解码模块对所述训练样本图像的文字预测结果的步骤,包括:执行所述第一解码模块,对所述训练样本图像对应的所述第一特征向量进行解码,得到第一文字预测结果。
全文数据:
权利要求:
百度查询: 北京三快在线科技有限公司 基于渐进式编码的文字识别方法、装置、电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。