买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
摘要:本发明实施例提供了一种拼写纠错方法、装置、介质及电子设备,该拼写纠错方法包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。本发明实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。
主权项:1.一种拼写纠错方法,其特征在于,包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理;其中,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错;通过以下公式对所述待处理的字符串和所述候选字符串进行对比: ;其中,表示所述待处理的字符串和所述候选字符串的对比结果;表示所述候选字符串中第i个字符的选择概率;表示所述待处理的字符串中第i个字符的选择概率;表示平滑因子。
全文数据:拼写纠错方法、装置、介质及电子设备技术领域本发明涉及数据处理技术领域,具体而言,涉及一种拼写纠错方法、装置、介质及电子设备。背景技术自然语言理解NaturalLanguageUnderstanding,简称NLU技术涵盖领域非常广泛,包括句子检测、分词、词性标注、句法分析、文本分类聚类、信息抽取自动摘要、机器翻译、自动问答、文本生成等多个领域。自然语言理解技术的前提是用户输入正确的语句,但是实际情况却是用户输入经常出现拼写错误的问题,而拼写错误将导致自然语言理解技术无法正确识别用户的意图,进而会影响用户的体验。因此如何能够有效地对用户输入的字符串进行拼写纠错成为亟待解决的技术问题。需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容本发明实施例的目的在于提供一种拼写纠错方法、装置、介质及电子设备,进而至少在一定程度上实现对用户输入的字符串自动进行拼写纠错处理。本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。根据本发明实施例的第一方面,提供了一种拼写纠错方法,包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。在本发明的一些实施例中,基于前述方案,根据所述拼音,生成所述候选字符串,包括:根据所述拼音进行模糊匹配,以得到所述候选字符串。在本发明的一些实施例中,基于前述方案,根据所述拼音进行模糊匹配,包括:确定与所述拼音相似的目标拼音;根据所述目标拼音,生成所述候选字符串。在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。在本发明的一些实施例中,基于前述方案,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,包括:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。在本发明的一些实施例中,基于前述方案,通过以下公式对所述待处理的字符串和所述候选字符串进行对比:其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。在本发明的一些实施例中,基于前述方案,根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错,包括:若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。根据本发明实施例的第二方面,提供了一种拼写纠错装置,包括:获取单元,用于获取待处理的字符串;确定单元,用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算单元,用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;处理单元,用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的拼写纠错方法。根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的拼写纠错方法。本发明实施例提供的技术方案可以包括以下有益效果:在本发明的一些实施例所提供的技术方案中,通过确定待处理的字符串对应的候选字符串,并计算待处理的字符串中各个字符的选择概率和候选字符串中各个字符的选择概率,以根据待处理的字符串中各个字符的选择概率和候选字符串中各个字符的选择概率来对待处理的字符串进行拼写纠错处理,使得能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示意性示出了根据本发明的一个实施例的拼写纠错方法的流程图;图2示意性示出了根据本发明的一个实施例的拼写纠错装置的框图;图3示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和或处理器装置和或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作步骤,也不是必须按所描述的顺序执行。例如,有的操作步骤还可以分解,而有的操作步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示意性示出了根据本发明的一个实施例的拼写纠错方法的流程图。参照图1所示,根据本发明的一个实施例的拼写纠错方法,包括如下步骤:步骤S110,获取待处理的字符串;步骤S120,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;步骤S130,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;步骤S140,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。图1所示实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。以下对图1中所示的各个步骤的实现细节进行详细阐述:在步骤S110中,获取待处理的字符串。在本发明的一个实施例中,待处理的字符串可以是用户输入的字符串,比如用户通过输入设备,如键盘、触摸板、触摸屏等输入的字符串,该字符串可能是拼写无误的,也有可能是拼写错误的。本发明实施例的技术方案即是对拼写有误的字符串进行纠错处理。在步骤S120中,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串。在本发明的实施例中,步骤S120中确定待处理的字符串对应的候选字符串的方案可以有多种,以下列举本发明的几个实施例:确定候选字符串的实施例一:在本发明的一个实施例中,确定候选字符串的过程包括:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。在该实施例中,可以根据待处理的字符串生成对应的拼音,然后基于该拼音重新生成相应的字符串,得到候选字符串。比如用户输入的字符串为“刘德花忘情水”,那么生成的拼音为“liudehuawangqingshui”,然后可以根据该拼音生成候选字符串“刘德华忘情水”。确定候选字符串的实施例二:在本发明的一个实施例中,确定候选字符串的过程包括:生成所述待处理的字符串对应的拼音,根据所述拼音进行模糊匹配,以得到所述候选字符串。可选地,在根据拼音进行模糊匹配时,可以确定与该拼音相似的目标拼音,然后根据该目标拼音来生成候选字符串。比如用户输入的字符串为“伊朗爱情歌曲”,那么生成的拼音为“yilangaiqinggushi”,而拼音“lang”与“lan”相似,那么可以得到拼音“yilanaiqinggushi”,然后根据该拼音生成候选字符串“依兰爱情故事”。确定候选字符串的实施例三:在本发明的一个实施例中,确定候选字符串的过程包括:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。在该实施例中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,若两个字符串之间的编辑距离越小,则说明这两个字符串越相似。比如用户输入的字符串为“刘德华情水”,已存储的字符串库中有一个字符串为“刘德华忘情水”,由于这两个字符串之间的编辑距离较小编辑距离为1,因此可以将“刘德华忘情水”作为候选字符串。继续参照图1,在步骤S130中,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。在本发明的一个实施例中,步骤S130包括:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。继续参照图1,在步骤S140中,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。在本发明的一个实施例中,步骤S140包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。在本发明的一个实施例中,可以通过以下公式对所述待处理的字符串和所述候选字符串进行对比:其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。在本发明的一个实施例中,若上述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。需要说明的是,该预定值的大小可以根据实际情况进行选择,比如在该预定值大于0时,就可以通过候选字符串对待处理的字符串进行拼写纠错,当然也可以在该预定值大于某一个正数时,再通过该候选字符串对待处理的字符串进行拼写纠错。本发明实施例的技术方案具有广阔的应用领域,比如可以应用到所有涉及自然语音理解的产品中,具体如搜索引擎、聊天机器人等。在本发明的一个具体应用场景中,聊天机器人的点歌服务可能存在着如表1中所示的拼写错误:表1由于拼写错误的存在,将严重影响后续的自然语言理解服务,如分词、意图识别等,因此本发明的实施例提出了自动实现拼写纠错的技术方案,具体如下:步骤一:建立并训练languagemodel语言模型languagemodel用于刻画字符串s的概率分布ps,ps代表字符串s作为一个句子在真实情况下出现的概率分布。对于二元语法bi-gram的语言模型,languagemodel的概率表示如下:其中,wi表示当前词,wi-1表示当前词的前一个词。举例而言,若有A、B、C、D四个词,就可以计算句子中先出现词A,再出现词B的概率,记为PB|A;并且可以计算先出现AB,AB后紧跟着的词是C的概率PC|AB。并且如果PC|AB和PD|AB都较大,则可认为词C、D较相似;若PC|AB较大,PD|AB较小,则可以认为C、D不相似。在本发明的一个实施例中,为了避免数据溢出、提高性能,可以通过取log后使用加法运算替代上述的乘法运算。languagemodel在建立后,可以使用训练语料对模型进行训练,经过训练后,模型对样本进行预测得到的概率就是样本在训练语料中可能出现的概率。利用这一点,本发明实施例利用languagemodel进行拼写纠错,这基于一个假设:在训练语料中,同样一句话拼写正确的概率大于拼写错误的概率这与直观感觉相同,也可以通过清理语料中的错误句子来确保这一点,例如:p简弘亦小幸运p简弘亦小星运p再度重相逢p在度重相逢在本发明的一个实施例中,可以通过TensorFlow一种人工智能学习系统实现一个基于LSTMLongShort-TermMemory,长短期记忆网络,是一种时间递归神经网络的languagemodel,这样只需要找到拼写错误的句子和对应的正确句子,通过比对languagemodel概率即可实现纠错。需要说明的是,在本发明的实施例中,可以利用已有的数据对languagemodel进行训练,并通过多轮迭代来提高准确率。步骤二:候选子集的确定在拼写错误中,最影响意图识别的是一些实体entity的拼写错误。例如,在点歌场景中,输入的句子为:给我放一首刘德花忘情水。拼写错误将导致后续的分词、slot意图的槽值信息提取等算法无法准确的识别歌手“刘德华”。而在固定的应用场景中,这些实体是有先验知识的,例如,可以通过爬取音乐盒子的热门榜单,获取热门的“歌手名”和“歌曲名”。这样,就可以预先知道正确的歌手名是“刘德华”。利用预先准备好的实体词如:歌曲名、歌手名与有拼写错误的句子进行比较,就可以得到可能正确的候选。通过总结,目前常见的拼写错误包括如下几个方面,其中“-”后面的句子为拼写正确的句子:1同音字错误如:“刘华花忘情水”-“刘德华忘情水”。2近音字错误如平翘舌、he变成le等如:“伊朗爱情歌曲”-“依兰爱情故事”。3多字缺字错误如:“刘德华情水”-“刘德华忘情水”。针对上述三种拼写错误,本发明的实施例提出了相应的获取候选子集的方案,具体如下:1针对同音字错误提出了拼音匹配具体地,将出现同音字错误的句子退化成拼音,再将拼音重新对应到可能正确的句子,如:将“刘德花忘情水”转换为拼音“liudehuawangqingshui”,然后根据拼音得到候选句子“刘德华忘情水”。2拼音模糊拼配拼音匹配不能覆盖近音字的错误,因此,在本发明的实施例中,可以在算法中加入近音字的模糊匹配,具体地,可以先将拼音相近的归一化成一个拼音,再进行匹配。如对于用户输入的“伊朗爱情歌曲”,将其转换为拼音“yilangaiqinggushi”,然后将“lang”和“lan”都归一化成“lan”得到“yilanaiqinggushi”,最后再进行拼音匹配得到候选句子“依兰爱情故事”。3编辑距离匹配可以计算用户输入的句子和语句库中存储的语句之间的编辑距离,将编辑距离较小的句子作为候选。比如用户输入的句子为s1=“刘德华情水”,语句库中存储有句子s2=“刘德华忘情水”。由于编辑距离Edits1,s2=1,因此可以将s2作为s1的候选句子加入候选子集。步骤三:纠错处理在步骤二中得到了用户输入的句子的可能候选子集,因此可以通过languagemodel获取各个句子中每个字符的选择概率,然后通过比较来确定是否用候选句替换原来输入的句子实现拼写纠错。在本发明的一个实施例中,可以通过如下公式来将原来输入的句子和候选句进行对比,得到分数score:其中,cand_socrei表示候选句中第i个字符的选择概率;input_socrei表示原来输入的句子中第i个字符的选择概率;smooth_factor表示平滑因子,防止分母为0。如果score为正,则可以对原来输入的句子进行纠错处理。在本发明的一个具体实施例中,比如用户原来输入的句子为“梁咏其胆小鬼”,候选句子为“梁咏琪胆小鬼”。通过languagemodel得到的原来输入的句子中每个字符的选择概率为:梁0.981|咏0.023|其0.001|胆0.687|小0.997|鬼0.995|;候选句子中每个字符的选择概率为:梁0.999|咏1.0|琪0.997|胆0.985|小0.998|鬼0.993|,那么通过上述公式将原来输入的句子和候选句进行对比,得到分数score为4.801,因此可以对原来输入的句子进行纠错处理,得到纠错后的句子为“梁咏琪胆小鬼”。本发明上述实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。以下介绍本发明的装置实施例,可以用于执行本发明上述的拼写纠错方法。图2示意性示出了根据本发明的一个实施例的拼写纠错装置的框图。参照图2所示,根据本发明的一个实施例的拼写纠错装置200,包括:获取单元202、确定单元204、计算单元206和处理单元208。其中,获取单元202用于获取待处理的字符串;确定单元204用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算单元206用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;处理单元208用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。在本发明的一些实施例中,基于前述方案,确定单元204配置为:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。在本发明的一些实施例中,基于前述方案,确定单元204配置为:根据所述拼音进行模糊匹配,以得到所述候选字符串。在本发明的一些实施例中,基于前述方案,确定单元204配置为:确定与所述拼音相似的目标拼音;根据所述目标拼音,生成所述候选字符串。在本发明的一些实施例中,基于前述方案,确定单元204配置为:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。在本发明的一些实施例中,基于前述方案,计算单元206配置为:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。在本发明的一些实施例中,基于前述方案,处理单元208配置为:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。在本发明的一些实施例中,基于前述方案,通过以下公式对所述待处理的字符串和所述候选字符串进行对比:其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。在本发明的一些实施例中,基于前述方案,处理单元208配置为:若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。由于本发明的示例实施例的拼写纠错装置的各个功能模块与上述拼写纠错方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的拼写纠错方法的实施例。下面参考图3,其示出了适于用来实现本发明实施例的电子设备的计算机系统300的结构示意图。图3示出的电子设备的计算机系统300仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图3所示,计算机系统300包括中央处理单元CPU301,其可以根据存储在只读存储器ROM302中的程序或者从存储部分308加载到随机访问存储器RAM303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有系统操作所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。输入输出IO接口305也连接至总线304。以下部件连接至IO接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管CRT、液晶显示器LCD等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至IO接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和或从可拆卸介质311被安装。在该计算机程序被中央处理单元CPU301执行时,执行本申请的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的拼写纠错方法。例如,所述的电子设备可以实现如图1中所示的:步骤S110,获取待处理的字符串;步骤S120,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;步骤S130,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;步骤S140,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质可以是CD-ROM,U盘,移动硬盘等中或网络上,包括若干指令以使得一台计算设备可以是个人计算机、服务器、触控终端、或者网络设备等执行根据本发明实施方式的方法。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
权利要求:1.一种拼写纠错方法,其特征在于,包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。2.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。3.根据权利要求2所述的拼写纠错方法,其特征在于,根据所述拼音,生成所述候选字符串,包括:根据所述拼音进行模糊匹配,以得到所述候选字符串。4.根据权利要求3所述的拼写纠错方法,其特征在于,根据所述拼音进行模糊匹配,包括:确定与所述拼音相似的目标拼音;根据所述目标拼音,生成所述候选字符串。5.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。6.根据权利要求1所述的拼写纠错方法,其特征在于,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,包括:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。7.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。8.根据权利要求7所述的拼写纠错方法,其特征在于,通过以下公式对所述待处理的字符串和所述候选字符串进行对比:其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。9.根据权利要求8所述的拼写纠错方法,其特征在于,根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错,包括:若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。10.一种拼写纠错装置,其特征在于,包括:获取单元,用于获取待处理的字符串;确定单元,用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算单元,用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;处理单元,用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至9中任一项所述的拼写纠错方法。12.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的拼写纠错方法。
百度查询: 北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司 拼写纠错方法、装置、介质及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。