买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:有米科技股份有限公司
摘要:本发明公开了一种基于Attention的图像文字识别方法及装置,该方法包括:基于训练好的文字识别模型识别目标图像中的文字,得到该目标图像对应的原文字集合,该原文字集合包括从目标图像中识别出的至少一个原文字;将每个原文字转换成对应的向量,并将所有原文字对应的向量输入预先训练好的语义纠正模型,得到每个原文字对应的预测文字;将所有原文字对应的预测文字确定为目标图像的文字识别结果;其中,文字识别模型为基于Attention的文字识别模型。可见,本发明能够基于文字识别模型与语义纠正模型的组合实现对图像文字的识别,在识别图像文字的同时实现了对识别到的图像文字的语义纠错,有利于提高对图像文字的识别准确率。
主权项:1.一种基于Attention的图像文字识别方法,其特征在于,所述方法包括:基于预先确定出的训练图像样本联合训练文字识别模型及语义纠正模型;其中,所述基于预先确定出的训练图像样本联合训练文字识别模型及语义纠正模型,包括:将预先确定出的训练图像样本输入文字识别模型得到所述训练图像样本对应的初始文字识别结果及第一交叉熵损失函数;以及,将所述训练图像样本对应的初始文字识别结果输入语义纠正模型得到所述训练图像样本对应的目标文字识别结果及第二交叉熵损失函数;根据所述第一交叉熵损失函数及所述第二交叉熵损失函数调整所述文字识别模型对应的训练参数及所述语义纠正模型对应的训练参数,并触发执行所述的将预先确定出的训练图像样本输入文字识别模型得到所述训练图像样本对应的初始文字识别结果及第一交叉熵损失函数的操作,以及,触发执行所述的将所述训练图像样本对应的初始文字识别结果输入语义纠正模型得到所述训练图像样本对应的目标文字识别结果及第二交叉熵损失函数的操作;基于训练好的文字识别模型识别目标图像中的文字,得到所述目标图像对应的原文字集合,所述原文字集合包括从所述目标图像中识别出的至少一个原文字;将每个所述原文字转换成对应的向量,并将所有所述原文字对应的向量输入预先训练好的语义纠正模型,得到每个所述原文字对应的预测文字;将所有所述原文字对应的预测文字确定为所述目标图像的文字识别结果;其中,所述文字识别模型为基于Attention的文字识别模型。
全文数据:
权利要求:
百度查询: 有米科技股份有限公司 基于Attention的图像文字识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。