首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本纠错方法、装置、电子设备和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本申请涉及自然语言处理技术领域,具体公开了一种文本纠错方法、装置、电子设备和存储介质,其中,纠错方法包括:将识别文本中的第一字符替换为第二字符;对识别文本中通过对第一字符进行替换得到的第二字符添加标识;根据识别文本中带有标识的第二字符的相邻字符,确定识别文本中带有标识的第二字符中的待纠错的第二字符;获取待纠错的第二字符的特征;将识别文本中的带有标识的第二字符中与待纠错的第二字符的特征匹配的第二字符替换为第一字符,得到纠错后的识别文本。通过本申请所提供的文本纠错方法,可以实现对识别文本中的识别错误的自动纠错,大大减少了人力资源的消耗,提高了纠错效率,并保障了自动纠错的准确率。

主权项:1.一种文本纠错方法,其特征在于,所述纠错方法包括:根据错误表确定第一字符对应的字符组,其中,所述错误表中记录了OCR识别过程中识别错误率大于第一阈值的字符以及与所述字符对应的字符组,所述字符组包括与所述字符对应的多个候选字符,且在OCR识别过程,所述多个候选字符被识别为所述字符的概率大于第二阈值;根据所述第一字符的相邻字符,在所述多个候选字符中确定第二字符,包括:获取第三字符,所述第三字符为识别文本中与所述第一字符相邻的字符;将所述第三字符和所述第一字符按照在所述识别文本中的顺序进行组合,得到第一词语;将所述第一词语中的第一字符分别替换为所述多个候选字符中的每个候选字符,得到多个第二词语,其中,所述多个第二词语与所述多个候选字符一一对应;分别对所述多个第二词语中的每个第二词语进行词嵌入处理,得到多个第一词向量,其中,所述多个第一词向量与所述多个第二词语一一对应;对所述多个第一词向量中的每个第一词向量,分别将所述每个第一词向量与预设词库中的多个模板词的词向量进行匹配,得到多个第一匹配结果,并根据所述多个第一匹配结果确定所述第二字符,其中,所述多个第一匹配结果与所述多个模板词一一对应;将识别文本中的第一字符替换为第二字符;对所述识别文本中通过对第一字符进行替换得到的第二字符添加标识;根据所述识别文本中带有标识的第二字符的相邻字符,确定所述识别文本中带有标识的第二字符中的待纠错的第二字符;获取所述待纠错的第二字符的特征;将所述识别文本中的带有标识的第二字符中与所述待纠错的第二字符的特征匹配的第二字符替换为所述第一字符,得到纠错后的识别文本;其中,所述对所述多个第一词向量中的每个第一词向量,分别将所述每个第一词向量与预设词库中的多个模板词的词向量进行匹配,得到多个匹配结果,并根据所述多个匹配结果确定所述第二字符,包括:分别计算所述每个第一词向量与预设词库中的多个模板词中的每个模板词的词向量之间的第一相似度,得到多个第一相似度,其中,所述多个第一相似度与多个常用词一一对应;将所述多个第一相似度中,最大的第一相似度作为所述每个第一词向量的第一得分,得到多个第一得分,其中,所述多个第一得分与所述多个第一词向量一一对应;将所述多个第一得分中,大于第三阈值的第一得分对应的第一词向量对应的第二词语,作为第三词语,得到至少一个第三词语;在所述至少一个第三词语中确定第四词语,并将所述第四词语中与所述第一字符处于同样位置的字符作为所述第二字符,其中,所述第四词语为所述至少一个第三词语中与所述识别文本之间匹配度最高的词语。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。