腾讯科技(深圳)有限公司章秦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉腾讯科技(深圳)有限公司申请的专利文本检错方法、装置、计算机设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112307749B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202011181568.X,技术领域涉及:G06F40/232;该发明授权文本检错方法、装置、计算机设备和存储介质是由章秦;刘涵;许泽柯;蒲昊;洪科元设计研发完成,并于2020-10-29向国家知识产权局提交的专利申请。
本文本检错方法、装置、计算机设备和存储介质在说明书摘要公布了:一种文本检错方法、装置、计算机设备和存储介质,所述方法包括:获取待识别图片;从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息;根据各所述字符位置信息对各所述字符进行版面复原,得到待检测文本;将所述待检测文本转换为对应的文本向量;将所述文本向量输入通过训练确定的文本检错模型,获取所述文本检错模型输出的所述待检测文本的文本检错结果。上述方法在对图片进行字符识别之后,基于字符的位置对字符进行版面复原,得到待检测的文本,然后对待检测文本进行向量化,基于向量化结果和文本检错模型确定待检测文本的文本检错结果;经过版面复原得到的待检测文本更加符合应用场景,有利于提高文本检错的准确率。
本发明授权文本检错方法、装置、计算机设备和存储介质在权利要求书中公布了:1.一种文本检错方法,其特征在于,所述方法包括: 获取待识别图片;所述待识别图片为票据图片; 从所述待识别图片中识别字符,以及确定各所述字符的字符位置信息; 根据各所述字符位置信息确定两两字符之间的位置关系; 基于两两字符之间的位置关系,结合所述待识别图片的表格线进行版面复原,将属于同一表格的文字或字符组合为同一待检测文本; 将所述待检测文本输入到BERT序列标注模型的输入层;所述BERT序列标注模型,是将进行了预训练的预设模型中的softmax层替换为CRF序列标注层得到预训练模型后,基于票据领域的样本文本向量和样本标签序列对所述预训练模型进行微调训练获得的; 通过所述BERT序列标注模型的嵌入层,对所述待检测文本进行文本向量化,得到所述待检测文本的文本向量,所述文本向量包含字向量、片段向量以及位置向量;其中,所述字向量包括所述待检测文本中各字符分别对应的向量;所述片段向量是指所述待检测文本中各字符在所述待检测文本中所对应的字符片段的向量;所述位置向量标识所述待检测文本中各字符在待检测文本中的顺序; 将所述文本向量输入所述BERT序列标注模型的Transformers编码层进行编码,向所述BERT序列标注模型的字符层输出一串文本; 将所述一串文本输入到所述BERT序列标注模型的CRF序列标注层,通过CRF实现序列标注,以通过所述BERT序列标注模型的输出层输出所述待检测文本的序列标注结果; 根据所述序列标注结果确定所述待检测文本的文本检错结果; 基于所述文本检错结果对出现错误的待检测文本进行字符纠错。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励