Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京明略昭辉科技有限公司孙孟奇获国家专利权

北京明略昭辉科技有限公司孙孟奇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京明略昭辉科技有限公司申请的专利一种文本的纠错方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114860870B

龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210351633.1,技术领域涉及:G06F16/3332;该发明授权一种文本的纠错方法及装置是由孙孟奇;曹雷设计研发完成,并于2022-04-02向国家知识产权局提交的专利申请。

一种文本的纠错方法及装置在说明书摘要公布了:本申请提供了一种文本的纠错方法及装置,其中,该方法包括:获取查询语句;其中,查询语句中的字符串用于表征待纠错的文本;对查询语句所携带的待纠错的文本进行通用纠错和或领域纠错;其中,通用纠错是指对文本所关联的通用表述错误进行纠错,领域纠错是指对文本与所关联的垂直领域内的关键词不匹配进行纠错;输出待纠错的文本的纠错结果。通过本申请,解决了现有技术中针对单个用户的语料训练语言模型进行纠错过程复杂且效率低的技术问题。

本发明授权一种文本的纠错方法及装置在权利要求书中公布了:1.一种文本的纠错方法,其特征在于,包括: 获取查询语句;其中,所述查询语句中的字符串用于表征待纠错的文本; 对所述查询语句所携带的所述待纠错的文本只进行领域纠错、或先进行通用纠错后进行领域纠错、或先进行领域纠错后进行通用纠错;其中,所述通用纠错是指对文本所关联的通用表述错误进行纠错,所述领域纠错是指对文本与所关联的垂直领域内的关键词不匹配进行纠错; 输出所述待纠错的文本的纠错结果; 其中: 在所述待纠错的文本为汉字的情况下,所述对所述查询语句所携带的所述待纠错的文本进行通用纠错,包括:对所述查询语句中的字符串进行错误检测;对检测出有错误的字符串所对应的文本从预设混淆集召回所对应的候选集;其中,所述混淆集包括多个文本以及与所述多个文本分别对应的候选集合;将所述候选集合中的候选文本依次换入所述待纠错的文本中,得到候选待纠错的文本;基于通用语言模型,对所述候选待纠错的文本打分;其中,所述通用语言模型为基于通用语料训练得到且用于对所述通用语料进行打分的语言模型;对打分后的所述候选待纠错的文本进行排序,并从排序结果中选择出得分最高的所述候选待纠错的文本;在得分最高的所述候选待纠错的文本分值与所述待纠错的文本的分值的差值大于第一预设阈值的情况下,将得分最高的所述候选待纠错的文本确定为所述纠错结果; 在所述待纠错的文本为拼音,或所述待纠错的文本为拼音与汉字组合的情况下,所述对所述查询语句所携带的所述待纠错的文本进行通用纠错,包括:在所述待纠错的文本中存在汉字的情况下,将所述待纠错的文本中的汉字转换为对应的拼音;对所述待纠错的文本所对应的拼音进行分词处理,得到第一分词结果;将所述第一分词结果中的拼音分词序列转换为对应的汉字序列;基于通用语言模型,对所述汉字序列中的汉字进行打分;其中,所述通用语言模型为基于通用语料训练得到且用于对所述通用语料进行打分的语言模型;根据所述汉字序列的得分进行排序,得到排序结果;从所述排序结果中得分大于第二预设阈值的所述汉字序列中选择得分最高的所述汉字序列作为所述待纠错的文本的所述纠错结果; 在对所述查询语句所携带的所述待纠错的文本进行领域纠错之前,包括:获取领域词典,并将所述领域词典中领域词所对应的汉字以及与所述汉字对应的拼音作为键值对存入目标数据库;其中,所述领域词为多个不同领域中的专有术语,所述领域词典还包括所述领域词所对应的权重;基于所述目标数据库中所述领域词中汉字所对应的拼音构建BK树;其中,所述BK树为包括以所述领域词为根节点和多个子节点的数据结构,所述根节点与所述子节点之间的编辑距离用于表征所述根节点对应的拼音需要经过多少次处理可得到所述子节点对应的拼音,两个所述子节点之间的编辑距离用于表征接近所述根节点的所述子节点对应的拼音需要经过多少次处理可得到远离所述根节点的所述子节点对应的拼音; 在所述待纠错的文本为汉字的情况下,对所述查询语句所携带的所述待纠错的文本进行领域纠错,包括:将用于表征所述汉字的字符串转换为用于表征拼音的字符串;通过滑动窗口遍历用于表征拼音的字符串以获取对应的拼音;基于所述BK树查询通过所述滑动窗口获取到的拼音的第一候选拼音;从所述目标数据库中查询与所述第一候选拼音对应的汉字,得到第一候选汉字;将用于表征所述第一候选汉字的字符串替换所述查询语句中用于表征待纠错的汉字的字符串,得到候选查询语句;基于领域语言模型,对所述候选查询语句进行打分;其中,所述领域语言模型为基于领域语料训练得到且用于对所述领域语料进行打分的语言模型;根据所述候选查询语句的得分对所述候选查询语句进行排序;在得分最高的所述候选查询语句的得分与所述查询语句的得分差值大于第三预设阈值的情况下,将得分最高的所述候选查询语句中的汉字确定为所述纠错结果; 在所述待纠错的文本为拼音的情况下,对所述查询语句所携带的所述待纠错的文本进行领域纠错包括:基于所述BK树查询所述拼音的第二候选拼音;从所述目标数据库中查询所述候选拼音对应的汉字,得到第二候选汉字;基于所述领域词典查询所述第二候选汉字对应的权重,将所述权重最高的所述候选汉字确定为所述纠错结果; 在所述待纠错的文本为拼音与汉字组合的情况下,对所述查询语句所携带的所述待纠错的文本进行领域纠错包括:将所述待纠错的文本中的汉字转换为拼音;基于所述BK树查询所述拼音的第三候选拼音;从所述目标数据库中查询所述候选拼音对应的汉字,得到第三候选汉字;基于所述领域词典查询所述第三候选汉字对应的权重,将所述权重最高的所述候选汉字确定纠错结果;在所述纠错结果表征为需要进行纠错的情况下,返回所述纠错结果;在所述纠错结果表征为不需要进行纠错的情况下,将所述第三候选拼音和所述待纠错文本中的拼音转换为汉字;将用于表征转换得到的汉字的字符串转换为用于表征拼音的字符串;通过滑动窗口遍历用于表征拼音的字符串以获取对应的拼音;基于所述BK树查询通过所述滑动窗口获取到的拼音的第四候选拼音;从所述目标数据库中查询与所述候选拼音对应的汉字,得到第四候选汉字;将用于表征所述第四候选汉字的字符串替换所述查询语句中用于表征待纠错的汉字的字符串,得到候选查询语句;基于领域语言模型,对所述候选查询语句进行打分;其中,所述领域语言模型为基于领域语料训练得到且用于对所述领域语料进行打分的语言模型;根据所述候选查询语句的得分对所述候选查询语句进行排序;在得分最高的所述候选查询语句的得分与所述查询语句的得分差值大于第四预设阈值的情况下,将得分最高的所述候选查询语句中的汉字确定为候选纠错结果;在所述候选纠错结果中包括所述待纠错的文本中的拼音的情况下,将所述候选纠错结果确定为所述纠错结果;在所述候选纠错结果中未包括所述待纠错的文本中的拼音的情况下,禁止对所述待纠错的文本进行纠错。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京明略昭辉科技有限公司,其通讯地址为:100098 北京市海淀区北三环西路25号27号楼二层2020室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。