买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市慧动创想科技有限公司
摘要:本申请涉及一种信息纠错方法、装置、计算机设备和存储介质。所述方法包括:识别目标图像对应的初始文本信息;将初始文本信息通过分词词典进行分词处理,得到初始文本信息对应的多个分词信息,根据字粒度和词粒度分析各个分词信息对应的语法结构和语义信息,若判断当前分词信息不满足预设条件,则将当前分词信息作为待纠错文本信息;将待纠错文本信息在形似字典中匹配对应的多个形似文本信息,将每一形似文本信息依次替换在初始文本信息中的待纠错文本信息,并作为候选文本信息;将混淆程度最小的候选文本信息作为已纠错文本信息。采用本方法能够提高了针对异常信息进行识别的准确性,从而提高了针对异常信息进行纠错的高效性和准确性。
主权项:1.一种信息纠错方法,其特征在于,所述方法包括:获取目标图像,并识别所述目标图像对应的初始文本信息,包括:基于正则表达式所包含的目标符号,在所述初始文本信息中匹配到与所述目标符号对应的文本信息,将所述目标符号对应的文本信息输入至分词词典中,所述目标符号包括书名号、问号以及感叹号;将所述初始文本信息通过分词词典进行分词处理,得到所述初始文本信息对应的多个分词信息,根据字粒度和词粒度分析各个分词信息对应的语法结构和语义信息,并对各个分词信息进行判断,若判断当前分词信息不满足预设条件,则将所述当前分词信息作为待纠错文本信息,包括:若所述当前分词信息对应的语法结构和语义信息并不匹配于在所述分词词典中所检索到的字词信息对应的语法结构和语义信息,则将所述当前分词信息作为待纠错文本信息;其中所述字粒度表示在字符级别的分词单位,所述词粒度表示在词语级别的分词单位;将所述待纠错文本信息在形似字典中匹配对应的多个形似文本信息,将每一形似文本信息依次替换在所述初始文本信息中的所述待纠错文本信息,将替换处理后的初始文本信息作为候选文本信息;计算每一候选文本信息对应的混淆程度,将混淆程度最小的候选文本信息作为已纠错文本信息;其中,将每一候选文本信息的文本长度、语法结构和文本歧义作为衡量混淆程度的指标;所述混淆程度表示候选文本信息在语法、结构或语义上的复杂性,用于表征针对候选文本信息进行理解的困难程度;所述根据字粒度和词粒度分析各个分词信息对应的语法结构和语义信息,包括:基于所述分词词典所携带的针对语法结构和语义信息的标准规则,对各个分词信息对应的语法结构和语义信息进行分析;其中所述标准规则包括词性规则、词组搭配规则、多义词规则、专有名词识别规则以及语法成分规则;所述若判断当前分词信息不满足预设条件,则将所述当前分词信息作为待纠错文本信息,包括:若所述当前分词信息为单个字符,则基于所述标准规则对所述当前分词信息进行分析,若所述当前分词信息不满足所述标准规则,则将所述当前分词信息作为待纠错文本信息。
全文数据:
权利要求:
百度查询: 深圳市慧动创想科技有限公司 一种信息纠错方法、装置、计算机设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。