首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本纠错方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司

摘要:本发明公开了一种文本纠错方法和装置,涉及计算机技术领域。其中,该方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。通过以上步骤,能够很好地处理中文、英文、拼音混合的文本纠错,提高了文本纠错的覆盖率和适用性。

主权项:1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系,所述混合词典树中是基于训练样本词的拼音序列构建得到的,所述训练样本词的获取步骤包括:获取用户搜索日志数据和商品标题数据作为源数据,并根据所述搜索日志中的搜索词的置信度和或长度,对搜索词进行滤除;利用基于左右熵的新词发现算法挖掘所述商品标题数据中的新词;并对新词挖掘结果进行过滤;根据滤除结果得到训练样本词;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果;具体包括:基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并将正向最大匹配结果和反向最大匹配结果对应的所有词汇作为候选文本;基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;将多个评估因子进行融合,以得到所述候选文本的评估值;根据所述评估值确定所述待纠错文本的纠错结果;所述纠错模型包括:拼音距离纠错模型;对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述拼音距离纠错模型计算出的所述候选文本的评估因子。

全文数据:文本纠错方法和装置技术领域本发明涉及计算机技术领域,尤其涉及一种文本纠错方法和装置。背景技术近年来,查询纠错技术在检索系统得到了广泛应用,并取得了较好的效果。随着互联网行业的发展,查询纠错技术在其他互联网领域比如电商领域也受到了越来越多的关注。现有的查询纠错技术主要分为以下两种:基于用户会话的文本纠错方法、基于概率模型的文本纠错方法。在第一种文本纠错方法中,主要是根据用户搜索的会话日志,挖掘出用户主动改写的候选纠错对,并将其作为纠错后的正确搜索词。在第二种文本纠错方法中,主要是将点击量较高的用户搜索词作为纠错候选集,然后利用统计模型计算候选文本的概率,并将概率最大的作为纠错后的正确搜索词。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:第一、现有技术不能很好地处理中文、英文、拼音混合的查询纠错;第二、现有技术对于长尾词的查询纠错处理速度较慢、时效性较差。发明内容有鉴于此,本发明提供一种文本纠错方法和装置,能够很好地处理中文、英文、拼音混合的文本纠错,提高了文本纠错的覆盖率和适用性。为实现上述目的,根据本发明的第一方面,提供了一种文本纠错方法。本发明的文本纠错方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。可选地,所述获取待纠错文本的拼音序列的步骤包括:若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。可选地,所述查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集的步骤包括:基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。可选地,所述根据纠错模型和候选文本集确定所述待纠错文本的纠错结果的步骤包括:基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;将多个评估因子进行融合,以得到所述候选文本的评估值;根据所述评估值确定所述待纠错文本的纠错结果。可选地,所述多个纠错模型包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。可选地,在所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型的情况下,所述基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子的步骤包括:基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子;基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子;基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。可选地,所述基于拼音距离纠错模型计算所述候选文本的拼音距离的步骤包括:对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。可选地,所述正向最大匹配结果、所述反向最大匹配结果包括:至少一个候选文本片段;所述方法还包括:对候选文本片段的拼音序列进行编辑操作;根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。可选地,所述对候选文本片段的拼音序列进行编辑操作的步骤包括:在所述候选文本片段包括汉字的情况下,对所述汉字的拼音进行模糊音的编辑操作;在所述候选文本片段包括英文词的情况下,对所述英文词进行插入、替换、交换和或删除的编辑操作。可选地,所述方法还包括:获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树。可选地,所述方法还包括:在所述获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树的步骤之前,对源数据进行清洗,以得到所述训练样本词。为实现上述目的,根据本发明的第二方面,提供了一种搜索方法。本发明的搜索方法包括:接收输入文本;在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列;查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述输入文本的纠错结果;根据所述输入文本的纠错结果获取搜索结果,并将所述搜索结果进行发送。为实现上述目的,根据本发明的第三方面,提供了一种搜索纠错方法。本发明的搜索纠错方法包括:接收输入文本;在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列;查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述输入文本的纠错结果;对所述输入文本的纠错结果进行排序,并将排序后的纠错结果进行发送。为实现上述目的,根据本发明的第四方面,提供了一种文本纠错装置。本发明的文本纠错装置包括:获取模块,用于获取待纠错文本的拼音序列;查找模块,用于查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;确定模块,用于根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。可选地,所述获取模块获取待纠错文本的拼音序列包括:若所述待纠错文本由汉字组成,则所述获取模块将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则所述获取模块将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则所述获取模块将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。可选地,所述查找模块查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集包括:所述查找模块基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。可选地,所述确定模块根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果包括:所述确定模块基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;所述确定模块将多个评估因子进行融合,以得到所述候选文本的评估值;所述确定模块根据所述评估值确定所述待纠错文本的纠错结果。可选地,所述多个纠错模型包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。可选地,在所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型的情况下,所述确定模块基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子包括:所述确定模块基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子;所述确定模块基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子;所述确定模块基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。可选地,所述确定模块基于拼音距离纠错模型计算所述候选文本的拼音距离包括:所述确定模块对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;所述确定模块根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。可选地,所述正向最大匹配结果、所述反向最大匹配结果包括:至少一个候选文本片段;所述装置还包括:编辑模块,用于对候选文本片段的拼音序列进行编辑操作;所述查找模块,还用于根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。可选地,所述编辑模块对候选文本片段的拼音序列进行编辑操作包括:在所述候选文本片段包括汉字的情况下,所述编辑模块对所述汉字的拼音进行模糊音的编辑操作;在所述候选文本片段包括英文词的情况下,所述编辑模块对所述英文词进行插入、替换、交换和或删除的编辑操作。可选地,所述装置还包括:构建模块,用于获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树。可选地,所述装置还包括:清洗模块,用于对源数据进行清洗,以得到所述训练样本词。为实现上述目的,根据本发明的第五方面,提供了一种电子设备。本发明的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的文本纠错方法。为实现上述目的,根据本发明的第六方面,提供了一种计算机可读介质。本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的文本纠错方法。上述发明中的一个实施例具有如下优点或有益效果:在本发明实施例中,通过获取待纠错文本的拼音序列,查找混合词典树以获取与所述待纠错文本的拼音序列匹配的候选文本,计算所述候选文本的评估值,并根据所述评估值确定所述待纠错文本的纠错结果,能够很好地处理中文、英文、拼音混合的文本纠错,提高文本纠错的覆盖率和适用性。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是根据本发明一个实施例的文本纠错方法的主要步骤示意图;图2是根据本发明另一实施例的文本纠错方法的主要步骤示意图;图3是根据本发明又一实施例的文本纠错方法的主要步骤示意图;图4是根据本发明实施例的混合词典树的示意图;图5是根据本发明一个实施例的文本纠错装置的主要模块示意图;图6是根据本发明另一实施例的文本纠错装置的主要模块示意图;图7是本发明实施例可以应用于其中的示例性系统架构图;图8是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以相互组合。图1是根据本发明一个实施例的文本纠错方法的主要步骤示意图。如图1所示,本发明实施例的文本纠错方法包括:步骤S101、获取待纠错文本的拼音序列。具体来说,步骤S101包括:若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。例如,待纠错文本为“女士运动鞋”,则待纠错文本的拼音序列为“nvshiyundongxie”。例如,待纠错文本为“iphone8”,则待纠错文本的拼音序列为“iphone8”。例如,待纠错文本为“adidas男士运动鞋”,则待纠错文本的拼音序列为“adidasnanshiyundongxie”步骤S102、查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集。其中,所述混合词典树包括拼音与中文词及英文词的对应关系。在所述混合词典树中,每个节点保存有一个字符。并且,在存放拼音的尾字符的节点中,还保存有该拼音对应的词。其中,所述对应的词可以是中文词或者英文词。例如,假设混合词典树中存有“huawei”这一拼音,则根节点为空,根节点之下的每个节点中依次存放字符“h”、“u”、“a”、“w”、“e”、“i”,并且在存放字符“i”的节点中还存放有“划为”和“华为”等与该拼音序列对应的词。示例性的,假设待纠错文本为“划为手机”,待纠错文本的拼音序列为“huaweishouji”,通过步骤S102获取的候选文本集包括如下候选文本:“华为手机”、“划为手机”、“华为收集”和“划为收集”。步骤S103、根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。在本发明实施例中,通过预先构建混合词典树,并通过获取待纠错文本的拼音序列,查找混合词典树以获取与所述待纠错文本的拼音序列匹配的候选文本集,根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果,能够很好地处理中文、英文、拼音混合的文本纠错,提高文本纠错的覆盖率和适用性。图2是根据本发明另一实施例的文本纠错方法的主要步骤示意图。如图2所示,本发明实施例的文本纠错方法包括:步骤S201、获取待纠错文本的拼音序列。具体来说,步骤S201包括:若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。步骤S202、基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述待纠错文本的拼音序列匹配的候选文本集。具体来说,在本发明实施例的正向最大匹配算法和反向最大匹配算法中:先对所述待纠错文本的拼音序列进行切分,然后根据切分后的拼音序列片段查找混合词典树,以获取正向最大匹配结果和反向最大匹配结果。然后,根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。所述候选文本集是指所有候选文本构成的集合。所述正向最大匹配结果或反向最大匹配结果包括:至少一个候选文本片段。具体来说,当匹配结果只包括一个候选文本片段时,该候选文本片段即相当于与待纠错文本的拼音序列匹配的一个候选文本。当匹配结果包括多个候选文本片段时,可对所述多个候选文本片段进行拼接,以得到候选文本。示例性的,假设待纠错文本为“女时运动鞋”,待纠错文本的拼音序列为“nvshiyundongxie”。在正向最大匹配算法中:1先根据“nvshiyundongxie”查找混合词典树。若混合词典树中存在“nvshiyundongxie”这一拼音序列,则匹配成功,将混合词典树中“nvshiyundongxie”对应的词作为候选文本,即作为正向最大匹配结果。2若混合词典树中不存在“nvshiyundongxie”这一拼音序列,则往前推进一个字长,即根据“nvshiyundong”这个拼音序列片段查找混合词典树。若混合词典树中存在“nvshiyundong”这个拼音序列片段,则匹配成功,将混合词典树中“nvshiyundong”对应的词作为候选文本片段,然后根据“xie”这个拼音序列片段查找混合词典树。若混合词典树中存在“xie”这一拼音序列片段,则匹配成功,将混合词典树中“xie”对应的词作为候选文本片段。进而,正向最大匹配结果包括:“nvshiyundong”对应的候选文本片段和“xie”对应的候选文本片段。3若混合词典树中不存在“nvshiyundong”这一拼音序列片段,则迭代执行“往前推进一个字长,根据新的拼音序列片段查找混合词典树”的步骤,直至得到正向最大匹配结果。示例性的,假设待纠错文本为“女时运动鞋”,待纠错文本的拼音序列为“nvshiyundongxie”。在反向最大匹配算法中:1先根据“nvshiyundongxie”查找混合词典树。若混合词典树中存在“nvshiyundongxie”这一拼音序列,则匹配成功,将混合词典树中“nvshiyundongxie”这一拼音序列对应的词作为候选文本,即作为反向最大匹配结果。2若混合词典树中不存在“nvshiyundongxie”这一拼音序列,则往后推进一个字长,即根据“shiyundongxie”这个拼音序列片段查找混合词典树。若混合词典树中存在“shiyundongxie”这个拼音序列片段,则匹配成功,将混合词典树中“shiyundongxie”对应的词作为候选文本片段,然后根据“nv”这个拼音序列片段查找混合词典树。若混合词典树中存在“nv”这一拼音序列片段,则匹配成功,将混合词典树中“nv”对应的词作为候选文本片段。进而,反向最大匹配结果包括:“shiyundongxie”对应的候选文本片段和“nv”对应的候选文本片段。3若混合词典树中不存在“shiyundongxie”这一拼音序列片段,则迭代执行“往后推进一个字长,根据新的拼音序列片段查找混合词典树”的步骤,直至得到反向最大匹配结果。示例性的,假设待纠错文本为“女时运动鞋”,待纠错文本的拼音序列为“nvshiyundongxie”,若正向最大匹配算法对该拼音序列的切分结果为“nvshi”和“yundongxie”;且在混合词典树中,“nvshi”对应的词为“女士”和“女时”,“yundongxie”对应的词为“运动鞋”,则候选文本片段为:“女士”、“女时”和“运动鞋”。因此,基于正向最大匹配得到的候选文本为:“女士运动鞋”和“女时运动鞋”。若反向最大匹配算法对该拼音序列的切分结果为“xie”和“nvshiyundong”;且在混合词典树中,“nvshiyundong”对应的词“女士运动”,“xie”对应的词为“鞋”和“械”,则候选文本片段为“女士运动”、“鞋”和“械”。因此,基于反向最大匹配得到的候选文本为“女士运动鞋”和“女士运动械”。进而,根据正向最大匹配结果和反向最大匹配结果得到的与所述待纠错文本的拼音序列匹配的候选文本为:“女士运动鞋”、“女时运动鞋”和“女士运动械”。在本发明实施例中,通过分别采用正向最大匹配算法、反向最大匹配算法对待纠错文本的拼音序列进行切分、匹配,不仅能够加快待纠错文本尤其是长尾词的文本纠错速度,保证文本纠错的时效性;而且能够提高文本纠错的准确率和覆盖率。步骤S203、基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子。其中,所述多个纠错模型可包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。比如,在一可选实施例中,所述多个纠错模型由噪声信道纠错模型和编辑距离纠错模型组成;基于所述噪声信道纠错模型得到的候选文本的评估因子为:候选文本的噪声信道概率;基于所述编辑距离纠错模型得到的候选文本的评估因子为:候选文本的编辑距离。在另一可选实施例中,所述多个纠错模型由噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型组成;基于所述噪声信道纠错模型得到的候选文本的评估因子为候选文本的噪声信道概率;基于所述编辑距离纠错模型得到的候选文本的评估因子为候选文本的编辑距离;基于所述拼音距离纠错模型得到的候选文本的评估因子为候选文本的拼音距离。步骤S204、将多个评估因子进行融合,以得到所述候选文本的评估值。步骤S205、根据所述评估值确定所述待纠错文本的纠错结果。示例性的,可以将评估值最大的候选文本作为所述待纠错文本的纠错结果。或者,也可以将评估值大于某一预设阈值的一个或多个候选文本作为所述待纠错文本的纠错结果。在本发明实施例中,通过多个纠错模型并行地计算多个评估因子,并将多个评估因子进行融合以得到候选文本的评估值,根据所述评估值确定待纠错文本的纠错结果等步骤,不仅能够提高查询纠错的准确率,而且能够提高文本纠错方法的处理速度,保证时效性。在本发明实施例中,通过步骤S201至步骤S205,能够很好地处理中文、英文、拼音混合的文本纠错,提高文本纠错的覆盖率和适用性。图3是根据本发明又一实施例的文本纠错方法的主要步骤示意图。如图3所示,本发明实施例的文本纠错方法包括:步骤S301、对源数据进行清洗,以得到所述训练样本词。示例性的,所述源数据可包括:用户搜索日志数据、商品标题数据等。在一可选实施例中,对用户搜索日志数据可作如下清洗:1计算搜索词的置信度,并将置信度小于预设阈值的搜索词滤除。示例性的,可先统计搜索词的pv搜索次数、ctr点击量以及gmv成交总额,然后根据这三个指标计算搜索词的置信度,计算公式如下:confidence=a*pv+b*ctr+c*gmv其中,confidence表示搜索词的置信度,a、b和c为预设的常系数,pv表示搜索次数,ctr表示点击量,gmv表示成交总额。进一步,在该示例中,对不包括汉字的搜索词和包括汉字的搜索词,可以分别设置不同的预设阈值。比如,可将不包括汉字的搜索词的预设阈值设为500,将包括汉字的搜索词的预设阈值设为10。2对用户搜索日志数据中的搜索词进行分词,并保留长度小于或等于第一长度阈值比如5的纯中文词,以及保留长度位于第二长度阈值比如2和第三长度阈值比如10之间的非纯中文词。在不影响本发明实施的情况下,第一、二、三长度阈值可根据需求灵活设置。3可基于字典滤除包括拼音的搜索词。4滤除由纯数字构成的搜索词,滤除包括特殊字符的搜索词。通过以上步骤,能够尽量滤除用户输入的错词、长尾词等,减少训练样本词中的噪声。进一步,在该可选实施例中,可对商品标题数据可作如下清洗:利用基于左右熵的新词发现算法挖掘商品标题数据中的新词;并通过设置一些规则比如,去除由纯数字构成的商品标题等对新词挖掘结果进行过滤。步骤S302、获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树。具体地,该步骤包括:获取清洗后的数据中每个词即训练样本词的拼音序列,然后将所述拼音序列的每个字符由上至下依次放入根节点下的子节点中。并且,将同一拼音序列对应的所有训练样本词放入存有该拼音序列的尾字符的子节点中。例如,假设训练样本词的拼音序列为“huawei”,该拼音序列对应的所有训练样本词为“华为”和“划为”,则可将根节点设为空,由上至下依次将“h”、“u”、“a”、“w”、“e”、“i”放入该根节点的子节点中。并且,将“华为”和“划为”放入存有“i”的子节点中。在本发明实施例中,通过构建混合词典树,能够很好地支持处理中文、英文、拼音混合的查询纠错。步骤S303、获取待纠错文本的拼音序列。关于该步骤如何实施,可参考图2所示实施例中关于步骤S201的相关说明。步骤S304、基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述待纠错文本的拼音序列匹配的候选文本集。其中,所述候选文本集为所有候选文本构成的集合。所述正向最大匹配结果或反向最大匹配结果包括:至少一个候选文本片段。具体来说,当匹配结果只包括一个候选文本片段时,该候选文本片段即相当于与待纠错文本的拼音序列匹配的一个候选文本。当匹配结果包括多个候选文本片段时,可对所述多个候选文本片段进行拼接,以得到候选文本。关于该步骤如何实施,可参考图2所示实施例中关于步骤S202的相关说明。进一步,为了提高文本纠错的准确率和覆盖率,本发明实施例的文本纠错方法还可包括以下步骤:对通过步骤S304得到的候选文本片段的拼音序列进行编辑操作;根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。例如,待纠错文本为“女时运动鞋”,基于正向最大匹配结果得到的候选文本片段为:“女士”、“女时”、“运动鞋”,基于反向最大匹配结果得到的候选文本片段为:“女士运动”、“鞋”、“械”,通过编辑操作得到的新增候选文本片段为:“吕氏”,则可得到如下候选文本:“女士运动鞋”、“女时运动鞋”、“吕氏运动鞋”、“女士运动械”。具体地,所述对候选文本片段的拼音序列进行编辑操作包括:步骤A、在所述候选文本片段包括汉字的情况下,对所述汉字的拼音进行模糊音的编辑操作。其中,所述模糊音的编辑操作可包括:前后鼻音的编辑操作,比如an与ang的转换、ian与iang的转换、uan与uang的转换、en与eng的转换、uen与ueng的转换、in与ing的转换;平翘舌音的编辑操作,比如z与zh的转换、c与ch的转换、s与sh的转换;南北音的转换,比如n与l的转换、b与p的转换、h与f的转换、u与v的转换、i与u的转换、i与v的转换。例如,候选文本片段为“吕氏”,对“吕氏”的拼音“lvshi”进行编辑操作,得到的编辑后的拼音序列为“nvshi”。步骤B、在所述候选文本片段包括英文词的情况下,对所述英文词进行插入、替换、交换和或删除的编辑操作。在本发明实施例中,通过步骤A、B能够实现对候选文本片段的拼音序列的编辑操作;通过获取与编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段和新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本,能够增大候选文本的数量,提高文本纠错的覆盖率。步骤S305、基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子。具体来说,候选文本的噪声信道概率可根据如下公式计算得到:P=Pqc*Pc;其中,P为候选文本的噪声信道概率,q表示待纠错文本,c表示候选文本,Pqc表示候选文本与待纠错文本之间的转移概率,Pc表示候选文本的先验概率。进一步,Pqc、Pc可根据如下公式计算得到:其中,freqc表示候选文本c在训练语料中的出现频次,freqq,c表示待纠错词与候选文本在训练语料中同时出现的频次,|C|表示训练预料库中所有词的总数。步骤S306、基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子。具体来说,候选文本的编辑距离是指;将待纠错文本变成候选文本所需的最小编辑操作次数。其中,编辑操作可以为插入、替换、交换或删除。例如,待纠错文本为“受机”,候选文本为“手机”,则候选文本的编辑距离为1。例如,待纠错文本为“iphoe”,候选文本为“iphone”,则候选文本的编辑距离为1。可选地,所述候选文本的第二评估因子满足:其中,μedit表示候选文本的第二评估因子,dedit表示候选文本的编辑距离,max{L1,L2}表示在待纠错文本与候选文本中取最大字串长度,L1表示待纠错文本的字串长度,L2表示候选文本的字串长度。步骤S307、基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。具体来说,所述候选文本的拼音距离可通过如下步骤计算:对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。其中,当待纠错文本与候选文本中包括非汉字部分比如英文词、数字时,认为所述非汉字部分中同一位置相同字符的拼音组成字母相同、声调也相同,认为所述非汉字部分中同一位置不同字符的拼音组成字母不同、声调也不同。例如,待纠错文本为“受机”、候选文本为“手机”,对待纠错文本和候选文本进行逐字比较。“受”和“手”的拼音组成字母都为“shou”,但两者的声调不同,因此第一个字的拼音距离为:1拼音相同+0声调不同=1。“机”与“机”的拼音组成字母都为“ji”,且两者的声调相同,因此第二个字的拼音距离为:1拼音相同+1声调相同=2。因此,候选文本“手机”的拼音距离为3。例如,待纠错文本为“ipd”、候选文本为“ipad”,对待纠错文本和候选文本进行逐字比较。待纠错文本和候选文本中的第一个字“i”的拼音组成字母相同,且声调相同,所以第一个字的拼音距离为2。待纠错文本和候选文本中的第二个字“p”的拼音相同,且两者的声调相同,所以第二个字的拼音距离为2。待纠错文本中的第三个字“d”与候选文本中的第三个字“a”的拼音组成字母不同、声调不同,所以第三个字的拼音距离为0。待纠错文本中的第四个字为空,候选文本中的第四个字为“d”,两者的拼音组成字母和声调都不同,所以第四个字的拼音距离为0,因此候选文本“ipad”的拼音距离为4。可选地,所述候选文本的第三评估因子满足:其中,νpinyin表示候选文本的第三评估因子,dpinyin表示候选文本的拼音距离,max{L1,L2}表示在待纠错文本与候选文本中取最大字串长度,L1表示待纠错文本的字串长度,L2表示候选文本的字串长度。步骤S308、将第一、二、三评估因子进行融合,以得到所述候选文本的评估值。可选的,可根据如下公式将第一、二、三评估因子进行融合:Score=a1*P+b1*μedit+c1*νpinyin;其中,Score表示候选文本的评估值,a1、b1、c1为预设的常系数,P为第一评估因子,μedit为第二评估因子,νpinyin为第三评估因子。步骤S309、将评估值最大的候选文本作为所述待纠错文本的纠错结果。在本发明实施例中,通过采用噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型分别计算第一、二、三评估因子,并对第一、二、三评估因子进行融合以得到候选文本的评估值等步骤,能够进一步提高文本纠错的准确率。下面结合图4对本发明实施例的混合词典树的结构作示意性说明。如图4所示,本发明实施例的混合词典树包括拼音与中文词及英文词的对应关系。具体来说,本发明实施例的混合词典树包括多条路径,每条路径包括根节点以及根节点之下的子节点。其中,根节点为空,在根节点之下的每个子节点中均存有一个字符。并且,在某些子节点中存放有特定拼音由根节点至该子节点中的字符组成的拼音对应的中文词或英文词。比如,图4中的一条路径由上至下包括:根节点、存放“h”的子节点、存放“u”的子节点、存放“a”的子节点、存放“w”的子节点、存放“e”的子节点、存放“i”的子节点。并且,在存放“u”的子节点中,还存有“hu”这一拼音序列对应的词“胡”、“虎”等;在存放“a”的子节点中,还存有“hua”这一拼音序列对应的词“华”、“花”等;在存放“i”的子节点中,还存有“huawei”这一拼音序列对应的词“华为”、“划为”等。另外,本发明还提供了一种搜索方法。本发明实施例的搜索方法包括:步骤一、接收输入文本。步骤二、在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列。在该步骤中,可将所有输入文本作为待纠错文本,也可以只将部分输入文本作为待纠错文本。比如,可以预设常见错误文本列表,并且在用户输入的输入文本存在于所述常见错误文本列表时,将所述输入文本确定为待纠错文本。步骤三、查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集。所述混合词典树包括拼音与汉字及英文的对应关系。步骤四、根据纠错模型和所述候选文本集确定所述输入文本的纠错结果。步骤五、根据所述输入文本的纠错结果获取搜索结果,并将所述搜索结果进行发送。具体实施时,可将所述搜索结果发送至用户终端,并通过用户终端对所述搜索结果进行展示。在本发明实施例中,通过以上步骤能够很好地支持中文搜索词、英文搜索词、拼音搜索词、以及中文英文拼音三者任意混合的搜索词的纠错,提高了对搜索词进行纠错的覆盖率和适用性,进而能够更好地理解用户的搜索意图,提高用户体验。另外,本发明还提供了一种搜索纠错方法。本发明实施例的搜索纠错方法包括:步骤一、接收输入文本。步骤二、在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列。在该步骤中,可将所有输入文本作为待纠错文本,也可以只将部分输入文本作为待纠错文本。比如,可以预设常见错误文本列表,并且在用户输入的输入文本存在于所述常见错误文本列表时,将所述输入文本确定为待纠错文本。步骤三、查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集。所述混合词典树包括拼音与汉字及英文的对应关系。步骤四、根据纠错模型和所述候选文本集确定所述输入文本的纠错结果。步骤五、对所述输入文本的纠错结果进行排序,并将排序后的纠错结果进行发送。具体实施时,在得到的纠错结果为多个的情况下,可以按照文本纠错方法中得到的所述评估值对纠错结果进行排序,并将排序后的纠错结果发送至用户终端。用户终端在接收到所述排序后的纠错结果之后,可以通过提示语的形式将所述排序后的纠错结果展示给用户。在本发明实施例中,通过以上步骤能够很好地支持中文搜索词、英文搜索词、拼音搜索词、以及中文英文拼音三者任意混合的搜索词的纠错,提高了对搜索词进行纠错的覆盖率和适用性,进而能够更好地理解用户的搜索意图,提高用户体验。图5是根据本发明一个实施例的文本纠错装置的主要模块示意图。如图5所示,本发明实施例的文本纠错装置500包括:获取模块501、查找模块502、确定模块503。获取模块501,用于获取待纠错文本的拼音序列。具体来说,获取模块501获取待纠错文本的拼音序列包括:若所述待纠错文本由汉字组成,则获取模块501将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则获取模块501将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则获取模块501将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。查找模块502,用于查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集。其中,所述混合词典树包括拼音与中文词及英文词的对应关系。在所述混合词典树中,每个节点保存有一个字符。并且,在存放拼音序列的尾字符的节点中,还保存有该拼音序列对应的所有词。其中,所述对应的词可以是中文词或者英文词。示例性的,假设待纠错文本为“划为手机”,待纠错文本的拼音序列为“huaweishouji”,通过查找模块502获取的候选文本集包括如下候选文本:“华为手机”、“划为手机”、“华为收集”和“划为收集”。确定模块503,用于根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。在本发明实施例中,通过预先构建混合词典树,并通过获取模块获取待纠错文本的拼音序列;通过查找模块查找混合词典树以获取与所述待纠错文本的拼音序列匹配的候选文本集;通过确定模块根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果,能够很好地处理中文、英文、拼音混合的文本纠错,提高文本纠错的覆盖率和适用性。图6是根据本发明另一实施例的文本纠错装置的主要模块示意图。如图6所示,本发明实施例的文本纠错装置600包括:清洗模块601、构建模块602、获取模块603、查找模块604和确定模块605。清洗模块601,用于对源数据进行清洗,以得到所述训练样本词。示例性的,所述源数据可包括:用户搜索日志数据、商品标题数据等。关于清洗模块601如何对源数据进行清洗,可参考图3所示实施例中关于数据清洗的相关内容。构建模块602,用于获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树,可具体包括:构建模块602获取清洗后的数据中每个词即训练样本词的拼音序列,然后将所述拼音序列的每个字符由上至下依次放入根节点下的子节点中。并且,构建模块602将同一拼音序列对应的所有训练样本词放入存有该拼音序列的尾字符的子节点中。例如,假设训练样本词的拼音序列为“huawei”,该拼音序列对应的所有训练样本词为“华为”和“划为”,则可将根节点设为空,由上至下依次将“h”、“u”、“a”、“w”、“e”、“i”放入该根节点的子节点中。并且,将“华为”和“划为”放入存有“i”的子节点中。在本发明实施例中,通过构建模块602构建混合词典树,能够很好地支持处理中文、英文、拼音混合的查询纠错。获取模块603,用于获取待纠错文本的拼音序列。关于获取模块603具体如何获取待纠错文本的拼音序列,可参考图5所示实施例中关于获取模块501的相关说明。查找模块604,用于基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述待纠错文本的拼音序列匹配的候选文本集。具体来说,在正向最大匹配算法和反向最大匹配算法中:查找模块604先对所述待纠错文本的拼音序列进行切分,然后根据切分后的拼音序列片段查找混合词典树,以获取正向最大匹配结果和反向最大匹配结果。然后,查找模块604根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本。其中,所述正向最大匹配结果或反向最大匹配结果包括:至少一个候选文本片段。当匹配结果包括一个候选文本片段时,该候选文本片段即为与待纠错文本的拼音序列匹配的一个候选文本。当匹配结果包括多个候选文本片段时,可对所述多个候选文本片段进行拼接,以得到候选文本。例如,待纠错文本为“女时运动鞋”,基于正向最大匹配结果得到的候选文本片段为“女士”、“女时”和“运动鞋”,基于反向最大匹配结果得到的候选文本片段为“女士运动”、“鞋”和“械”,则可拼接得到如下候选文本:“女士运动鞋”、“女时运动鞋”和“女士运动械”。在本发明实施例中,查找模块604通过分别采用正向最大匹配算法、反向最大匹配算法对待纠错文本的拼音序列进行切分、匹配,不仅能够加快待纠错文本尤其是长尾词的纠错速度,保证文本纠错的时效性;而且能够提高文本纠错的准确率和覆盖率。进一步,为了提高文本纠错的准确率和覆盖率,文本纠错装置600还可包括:编辑模块。所述编辑模块,用于对候选文本片段的拼音序列进行编辑操作。并且,在该可选实施例中,查找模块604还用于根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段;以及,查找模块604用于根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。例如,待纠错文本为“女时运动鞋”,基于正向最大匹配结果得到的候选文本片段为“女士”、“女时”和“运动鞋”,基于反向最大匹配结果得到的候选文本片段为“女士运动”、“鞋”和“械”,通过编辑操作得到的新增候选文本片段为“吕氏”,则得到的候选文本集包括如下候选文本:“女士运动鞋”、“女时运动鞋”、“吕氏运动鞋”和“女士运动械”。具体地,编辑模块对候选文本片段的拼音序列进行编辑操作可包括:在所述候选文本片段包括汉字的情况下,编辑模块对所述汉字的拼音进行模糊音的编辑操作;在所述候选文本片段包括英文词的情况下,编辑模块对所述英文词进行插入、替换、交换和或删除的编辑操作。在本发明实施例中,通过设置编辑模块能够增大候选文本的数量,提高文本纠错的覆盖率。确定模块605,用于计算所述候选文本的评估值,并根据所述评估值确定所述待纠错文本的纠错结果,可具体包括:确定模块605基于多个纠错模型分别计算所述候选文本的评估因子;确定模块605将多个评估因子进行融合,以得到所述候选文本的评估值;确定模块605根据所述评估值确定所述待纠错文本的纠错结果。其中,所述多个纠错模型可包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。在一可选示例中,所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型。在该示例中,确定模块605基于多个纠错模型分别计算所述候选文本的评估因子包括:操作一、操作二和操作三。操作一、确定模块605基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子。具体来说,确定模块605可根据如下公式计算候选文本的噪声信道概率:P=Pqc*Pc;其中,P为候选文本的噪声信道概率,q表示待纠错文本,c表示候选文本,Pqc表示候选文本与待纠错文本之间的转移概率,Pc表示候选文本的先验概率。进一步,Pqc、Pc可根据如下公式计算得到:其中,freqc表示候选文本c在训练语料中的出现频次,freqq,c表示待纠错词与候选文本在训练语料中同时出现的频次,|C|表示训练预料库中所有词的总数。操作二、确定模块605基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子。其中,候选文本的编辑距离是指;将待纠错文本变成候选文本所需的最小编辑操作次数。其中,编辑操作可以为插入、替换、交换、删除。例如,待纠错文本为“受机”,候选文本为“手机”,则候选文本的编辑距离为1。例如,待纠错文本为“iphoe”,候选文本为“iphone”,则候选文本的编辑距离为1。可选地,确定模块605可根据如下公式计算所述候选文本的第二评估因子:其中,μedit表示候选文本的第二评估因子,dedit表示候选文本的编辑距离,max{L1,L2}表示在待纠错文本与候选文本中取最大字串长度,L1表示待纠错文本的字串长度,L2表示候选文本的字串长度。操作三、确定模块605基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。具体来说,确定模块605基于拼音距离纠错模型计算所述候选文本的拼音距离的操作可包括:对待纠错文本与候选文本中的字,确定模块605逐一比较其拼音组成字母是否相同以及声调是否相同;确定模块605根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。其中,当待纠错文本与候选文本中包括非汉字部分比如英文词、数字时,认为所述非汉字部分中同一位置相同字符的拼音组成字母相同、声调也相同,认为所述非汉字部分中同一位置不同字符的拼音组成字母不同、声调也不同。例如,待纠错文本为“受机”、候选文本为“手机”,第一个字的拼音距离为:1拼音相同+0声调不同=1;第二个字的拼音距离为:1拼音相同+1声调相同=2。因此,候选文本“手机”的拼音距离为3。例如,待纠错文本为“ipd”、候选文本为“ipad”,待纠错文本和候选文本中的第一个字“i”的拼音组成字母相同,且声调相同,所以第一个字的拼音距离为2。待纠错文本和候选文本中的第二个字“p”的拼音相同,且两者的声调相同,所以第二个字的拼音距离为2。待纠错文本中的第三个字“d”与候选文本中的第三个字“a”的拼音组成字母不同、声调不同,所以第三个字的拼音距离为0。待纠错文本中的第四个字为空,候选文本中的第四个字为“d”,两者的拼音组成字母和声调都不同,所以第四个字的拼音距离为0,因此候选文本“ipad”的拼音距离为4。可选地,确定模块605可根据如下公式计算所述候选文本的第三评估因子:其中,νpinyin表示候选文本的第三评估因子,dpinyin表示候选文本的拼音距离,max{L1,L2}表示在待纠错文本与候选文本中取最大字串长度,L1表示待纠错文本的字串长度,L2表示候选文本的字串长度。进一步,在该示例中,在得到第一、二、三评估因子之后,确定模块605可将第一、二、三评估因子进行融合,以得到所述候选文本的评估值。在得到所述评估值之后,确定模块605可以将评估值最大的候选文本作为所述待纠错文本的纠错结果。或者,确定模块605也可以将评估值大于某一预设阈值的一个或多个候选文本作为所述待纠错文本的纠错结果。可选的,确定模块605可根据如下公式将第一、二、三评估因子进行融合:Score=a1*P+b1*μedit+c1*νpinyin;其中,Score表示候选文本的评估值,a1、b1、c1为预设的常系数,P为第一评估因子,μedit为第二评估因子,νpinyin为第三评估因子。在本发明实施例中,确定模块605通过基于噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型分别计算第一、二、三评估因子,并对第一、二、三评估因子进行融合以得到候选文本的评估值等操作,能够进一步提高文本纠错的准确率。本发明实施例的装置能够很好地处理中文、英文、拼音混合的文本纠错,提高文本纠错的覆盖率和适用性。图7示出了可以应用本发明实施例的文本纠错方法或文本纠错装置的示例性系统架构700。如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的搜索词等数据进行查询纠错等处理,并将纠错结果反馈给终端设备。需要说明的是,本发明实施例所提供的文本纠错方法一般由服务器705执行,相应地,文本纠错装置一般设置于服务器705中。应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。进一步,本发明还提供了一种电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的文本纠错方法。图8示出了适于用来实现本发明的电子设备的计算机系统800的结构示意图。图8示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图8所示,计算机系统800包括中央处理单元CPU801,其可以根据存储在只读存储器ROM802中的程序或者从存储部分808加载到随机访问存储器RAM803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入输出IO接口805也连接至总线804。以下部件连接至IO接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管CRT、液晶显示器LCD等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至IO接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和或从可拆卸介质811被安装。在该计算机程序被中央处理单元CPUY01执行时,执行本发明的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、查找模块、确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取待纠错文本的拼音序列的模块”。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行以下流程:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

权利要求:1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本的拼音序列;查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。2.根据权利要求1所述的方法,其特征在于,所述获取待纠错文本的拼音序列的步骤包括:若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和或拼音。3.根据权利要求1所述的方法,其特征在于,所述查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集的步骤包括:基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。4.根据权利要求1所述的方法,其特征在于,所述根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果的步骤包括:基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;将多个评估因子进行融合,以得到所述候选文本的评估值;根据所述评估值确定所述待纠错文本的纠错结果。5.根据权利要求4所述的方法,其特征在于,所述多个纠错模型包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。6.根据权利要求5所述的方法,其特征在于,在所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型的情况下,所述基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子的步骤包括:基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子;基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子;基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。7.根据权利要求6所述的方法,其特征在于,所述基于拼音距离纠错模型计算所述候选文本的拼音距离的步骤包括:对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。8.根据权利要求3所述的方法,其特征在于,所述正向最大匹配结果、所述反向最大匹配结果包括:至少一个候选文本片段;所述方法还包括:对候选文本片段的拼音序列进行编辑操作;根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。9.根据权利要求8所述的方法,其特征在于,所述对候选文本片段的拼音序列进行编辑操作的步骤包括:在所述候选文本片段包括汉字的情况下,对所述汉字的拼音进行模糊音的编辑操作;在所述候选文本片段包括英文词的情况下,对所述英文词进行插入、替换、交换和或删除的编辑操作。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:在所述获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树的步骤之前,对源数据进行清洗,以得到所述训练样本词。12.一种搜索方法,其特征在于,所述方法包括:接收输入文本;在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列;查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述输入文本的纠错结果;根据所述输入文本的纠错结果获取搜索结果,并将所述搜索结果进行发送。13.一种搜索纠错方法,其特征在于,所述方法包括:接收输入文本;在确定所述输入文本为待纠错文本的情况下,获取输入文本的拼音序列;查找混合词典树,以获取与所述输入文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;根据纠错模型和所述候选文本集确定所述输入文本的纠错结果;对所述输入文本的纠错结果进行排序,并将排序后的纠错结果进行发送。14.一种文本纠错装置,其特征在于,所述装置包括:获取模块,用于获取待纠错文本的拼音序列;查找模块,用于查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;确定模块,用于根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。15.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至11中任一所述的方法。16.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至11中任一所述的方法。

百度查询: 北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司 文本纠错方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。