首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种无意义语料的分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东小天才科技有限公司

摘要:本发明提供了一种无意义语料的分析方法及系统,其方法包括:获取无意义语料集,根据所述无意义语料集总结语料正则表达式;根据所述语料正则表达式得出判定语料无意义的判定条件;获取用户语句;当所述用户语句符合所述判定条件时,判定所述用户语句无意义;当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。本发明能够准确快速识别地识别用户输入的无意义的语料,然后能够从该语料中提取关键词或有效主干推测用户意图进而进行推荐。

主权项:1.一种无意义语料的分析方法,其特征在于,包括:获取无意义语料集,根据所述无意义语料集总结语料正则表达式;包括:获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性;根据语料特征总结语料正则表达式,所述语料特征包括所述词语以及所述词性;根据所述语料正则表达式得出判定语料无意义的判定条件,具体包括:统计所述语料正则表达式中包含的词性的种类及数量;分析所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值;将所述判定条件中包含的词性以及对应的词语转化为语义槽;获取用户语句;当所述用户语句符合所述判定条件时,判定所述用户语句无意义;当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。

全文数据:一种无意义语料的分析方法及系统技术领域本发明涉及语言识别技术领域,尤指一种无意义语料的分析方法及系统。背景技术在现有的语音交互中,在麦克风收集用户语音的过程中,由于用户所处的环境、噪声、多人沟通等等的问题,经常会导致麦克风收录了无意义的片段语音信息,并且将片段的语音信息进行语音识别,而得到了一些无意义的语料。但是在交互系统中,在得到了一些无意义的语料后,往往难以做相关的有效处理。无法对得到的无意义语料进行有效处理,提炼用户的真实意图,从而采取相应的措施,反而回复的对话结果错乱,答非所问。当用户希望得到有效服务时,则会引发用户反感,因为这本身不是用户希望交互系统能够获取到的信息。对于上述情形,一方面需要交互系统对收集到的所有语音逐一分析识别,如果大量的无意义的语音混杂在其中对交互系统的处理会造成较大的影响,例如处理速度较慢等,另一方面无法正确识别用户的意图,导致无法做出正确的反馈,影响用户使用体验。因此目前拯待一种需要能对无意义语料进行分析的方法。发明内容本发明的目的是提供一种无意义语料的分析方法及系统,实现准确快速识别地识别用户输入的无意义的语料,然后能够从该语料中提取关键词或有效主干推测用户意图进而进行推荐。本发明提供的技术方案如下:本发明提供一种无意义语料的分析方法,其特征在于,包括:获取无意义语料集,根据所述无意义语料集总结语料正则表达式;根据所述语料正则表达式得出判定语料无意义的判定条件;获取用户语句;当所述用户语句符合所述判定条件时,判定所述用户语句无意义;当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。进一步的,所述的获取无意义语料集,根据所述无意义语料集总结语料正则表达式具体包括:获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性;根据语料特征总结语料正则表达式,所述语料特征包括所述词语以及所述词性。进一步的,所述的根据所述语料正则表达式得出判定语料无意义的判定条件具体包括:统计所述语料正则表达式中包含的词性的种类及数量;分析所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值;将所述判定条件中包含的词性以及对应的词语转化为语义槽。进一步的,所述的获取用户语句之后,所述的当所述用户语句符合所述判定条件时,判定所述用户语句无意义之前包括:根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式;将所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。进一步的,所述的当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导具体包括:当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词,根据所述关键词进行意图推荐和或语音引导;和或,将所述正则表达式中与所述语义槽匹配符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干,根据所述有效主干进行意图推荐和或语音引导。本发明还提供一种无意义语料的分析系统,其特征在于,包括:处理模块,获取无意义语料集,根据所述无意义语料集总结语料正则表达式;控制模块,根据所述处理模块总结的所述语料正则表达式得出判定语料无意义的判定条件;获取模块,获取用户语句;判定模块,当所述获取模块获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义;分析模块,当所述判定模块判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。进一步的,所述处理模块具体包括:分词单元,获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性;处理单元,根据语料特征总结语料正则表达式,所述语料特征包括分词单元得到的所述词语以及所述词性。进一步的,所述控制模块具体包括:统计单元,统计所述语料正则表达式中包含的词性的种类及数量;控制单元,分析所述控制单元分析出的所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值;转化单元,将所述统计单元得到的所述判定条件中包含的词性以及对应的词语转化为语义槽。进一步的,还包括:分词模块,根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式;匹配模块,将所述分词模块转化的所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。进一步的,所述分析模块具体包括:分析单元,当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词;执行单元,根据所述关键词进行意图推荐和或语音引导;和或,所述分析单元,将所述正则表达式中与所述语义槽符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干;所述执行单元,根据所述有效主干进行意图推荐和或语音引导。通过本发明提供的一种无意义语料的分析方法及系统,能够带来以下至少一种有益效果:1、本发明中,通过收集大量的无意义的语料样本形成无意义语料集,然后从中总结语料正则表达式,从而得出判定语料无意义的判定条件,建立在大量样本上得出的判定条件能够更加准确地筛选出无意义的用户语句,减少出现遗漏或错误的可能性。2、本发明中,在判定用户语句无意义后,仍然分析用户语句中的关键词或者有效主干,从中获取用户的真实意图,进而进行意图推荐或语音引导,避免根据最初的用户语句做出不相关的反馈。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种无意义语料的分析方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本发明一种无意义语料的分析方法的第一个实施例的流程图;图2是本发明一种无意义语料的分析方法的第二个实施例的流程图;图3是本发明一种无意义语料的分析方法的第三个实施例的流程图;图4是本发明一种无意义语料的分析方法的第四个实施例的流程图;图5是本发明一种无意义语料的分析系统的第五个实施例的结构示意图;图6是本发明一种无意义语料的分析系统的第六个实施例的结构示意图;图7是本发明一种无意义语料的分析系统的第七个实施例的结构示意图;图8是本发明一种无意义语料的分析系统的第八个实施例的结构示意图。附图标号说明:100无意义语料的分析系统110处理模块111分词单元112处理单元120控制模块121统计单元122控制单元123转化单元130获取模块140分词模块150匹配模块160判定模块170分析模块171分析单元172执行单元具体实施方式为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。本发明的第一实施例,如图1所示,一种无意义语料的分析方法,方法包括:S100获取无意义语料集,根据所述无意义语料集总结语料正则表达式。具体的,收集大量的无意义语料样本,其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。分析每一个语料样本中的词语以及对应的词性,从而得出每一个语料样本对应的语料正则表达式,每一个语料样本中能够明确词性的词语在对应的语料正则表达式中用对应的词性表达,例如动词、形容词等,其它无法用词性代替的词或者是特定词性的词语在语料正则表达式中仍然用原始词语表示,例如怎么样、有多少等。S200根据所述语料正则表达式得出判定语料无意义的判定条件。具体的,按照上述的方法每一个语料样本都能得到对应的一条语料正则表达式,综合分析所有的语料样本的语料正则表达式,找出无意义语料中的共同特征,从而得出判定语料无意义的判定条件。由于无意义语料集中包含的语料样本数量较多,可能不存在某一特征在所有的语料正则表达式中都存在,因此可以通过系统设定或者用户自主设置,满足一定数量或一定比例的语料样本对应的语料正则表达式的公共特征为该判定条件即可。S300获取用户语句。S600当所述用户语句符合所述判定条件时,判定所述用户语句无意义。具体的,获取用户语句,如果用户通过交互系统输入的是文字,则直接将输入的用户语句和判定条件进行匹配,如果匹配的结果是相符,则判定输入的用户语句是无意义的。如果匹配的结果是不相符,则判定输入的用户语句具有一定的实际意义,因此对输入的用户语句进行解析,从而识别用户的真实意图进行相应的反馈。如果用户通过交互系统选择的的语音交互的方式,则首先将用户输入的用户语句转化为识别文本,然后将该识别文本和上述的判定条件进行匹配,如果匹配的结果是相符,则判定输入的用户语句无意义。如果匹配的结果是不相符,说明用户语句具有实际意义,则通过用户语句的识别用户的意图进行相应的反馈。S700当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。具体的,当上述结果表明获取的用户语句无意义之后,则分析用户语句或者由用户语句转化的识别文本,得到其中的关键词或者进行筛选得到有效主干,根据该关键词或者该有效主干判断用户的意图,进而进行相应的意图推荐或者语音引导。本实施例中,通过收集大量的无意义的语料样本形成无意义语料集,然后从中总结语料正则表达式,从而得出判定语料无意义的判定条件,建立在大量样本上得出的判定条件能够更加准确地筛选出无意义的用户语句,减少出现遗漏或错误的可能性。另外,在判定用户语句无意义后,仍然分析用户语句中的关键词或者有效主干,从中获取用户的真实意图,进而进行意图推荐或语音引导,避免根据最初的用户语句做出不相关的反馈。本发明的第二实施例,是上述第一实施例的优化实施例,如图2所示,包括:S110获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性。具体的,获取无意义语料集,根据分词技术对无意义语料集中的语料样本进行分词,如果该语料样本是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行分词。上述的分词技术具体方法为:首先判断语料样本中句子的结构,然后将语料样本中的每一句话中根据词语的词性以及词语之间的关系将整个句子划分为字、词以及短语等分词构成。S120根据语料特征总结语料正则表达式,所述语料特征包括所述词语以及所述词性。具体的,通过上述分词技术将语料样本进行分词之后得到若干语料特征,根据该语料特征总结得出语料正则表达式,该语料特征为上述分词之后的字、词以及短语等分词、该分词对应的词性以及该分词在语料样本的句子中对应的关系。其中,每一个字、词以及短语等分词在对应的语料正则表达式中的表现形式可能是对应的词性,也可能是初始的字、词以及短语等分词,可以系统设定或者用户自主设置。例如,某一语料样本为:描写秋天的作文有哪些。通过分词技术判断该语料样本中涵盖的词语的词性:描写动词秋天时间词的助词作文名词有动词哪些代词,词语之间的关系为:定中关系:作文名词-描写动词,动宾关系:描写动词-秋天时间词,有动词-哪些代词。其中,一部分的字、词语用相应的词性代替,另一部分的字、词语用初始的字、词表示,因此该语料样本对应的语料正则表达式为:描写#时间词#的#名词#有哪些。S210统计所述语料正则表达式中包含的词性的种类及数量。具体的,根据每一个语料正则表达式中的各个分词的词性统计该语料正则表达式中包含的词性的种类,以及每种词性对应的字、词以及短语等分词的数量,进而计算每种词性对应的字、词以及短语等分词在所有的字、词以及短语等分词中所占的比例。对于在语料正则表达式中没有用对应的词性进行表达的字、词以及短语等分词,可以直接将初始的字、词以及短语进行分类统计,也就是说将该初始的字、词以及短语作为某一种“词性”。对于这种词性的分词,由于每个人表述方式的差异性,因此在统计过程中极小的可能碰到完全一致的分词,因此需要考虑到分词的语义,然后将语义相同的分词归为同一类。例如“的”、“地”以及“得”,或者“和”、“与”、“以及”等。例如,某一语料样本为:描写秋天的作文有哪些。对应的语料正则表达式为:描写#时间词#的#名词#有哪些。统计得到“描写”数量一,“时间词”数量一,“的”数量一,“名词”数量一。“有哪些”数量一,将“描写”、“的”、“有哪些”作为“时间词”和“名词”的同一级别的词性。S220分析所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值。具体的,通过上述的统计单一的语料正则表达式中包含的词性的种类以及每种词性对应数量或比例,分析所有的语料正则表达式中包含的词性的种类及数量,得出判定语料无意义的判定条件。获取所有的语料正则表达式中包含所有的词性的种类,逐一统计每种词性的分词在每一个语料正则表达式中出现的比例,其中,有的种类的词性在一个或多个语料正则表达式中出现的比例可能是0,特别是该种词性为语料正则表达式中初始的字、词以及短语。然后对比分析每种词性在每个语料正则表达式中出现的比例,得到无意义语料库中一定比例的语料样本中某种或多种词性的分词的比例超过一定阈值,就将语料中该种或多种词性的分词的比例超过该阈值作为判定条件。例如得出无意义语料库中70%的语料样本中的“的”的比例超过40%,则将语料中“的”的比例超过40%作为判定条件。上述举例中的70%和40%两个阈值仅作为举例,实际应用过程中用户可以自由设置,两者的数值可以相同也可以不相同。S230将所述判定条件中包含的词性以及对应的词语转化为语义槽。具体的,由于后续对用户语句进行判定,也就是和上述判定条件进行比对,因此将判定条件中的词性以及对应的词语转化为语义槽,其中在语料正则表达式中用对应的词性表达的分词只将词性转化为语义槽,用初始字、词、短语表达的分词则是将词性和对应的词语都转化为语义槽。对于上述举例,将语料中“的”的比例超过40%作为判定条件,则将词性“的”以及相同语义的“地”、“得”转化为语义槽。如果判定条件是形容词的比例超过40%,则将词性形容词转化为语义槽。S300获取用户语句。S600当所述用户语句符合所述判定条件时,判定所述用户语句无意义。S700当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。本实施例中,对无意义语料库中的每一个语料样本逐一进行解析得到对应的语料正则表达式,统计分析所有的语料样本的语料正则表达式,然后得出判定条件,从而确保能够准确识别无意义的语料。本发明的第三实施例,是上述第一实施例和第二实施例的优化实施例,如图3所示,包括:S100获取无意义语料集,根据所述无意义语料集总结语料正则表达式。S200根据所述语料正则表达式得出判定语料无意义的判定条件S300获取用户语句。S400根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式。具体的,根据分词技术对获取的用户语句进行分词,首先判断用户语句中句子的结构,然后将用户语句中的每一句话中根据词语的词性以及词语之间的关系将整个句子划分为字、词以及短语等分词构成,从而得到对应的正则表达式。S500将所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。具体的,将正则表达式中的词语以及对应的词性和语义槽进行匹配,由于正则表达式中每一个字、词以及短语等分词的表现形式可能是对应的词性,也可能是初始的字、词以及短语等分词,考虑到匹配速度,优先匹配在正则表达式中用对应的词性表达的分词是否和语义槽匹配,然后再将在正则表达式中用初始的字、词以及短语表达的分词和语义槽进行匹配。但是实际上在正则表达式中用对应的词性表达的分词和在正则表达式中用初始的字、词以及短语表达的分词与语义槽匹配的先后顺序并不影响匹配结果,可以自行选择。S600当所述用户语句符合所述判定条件时,判定所述用户语句无意义。S700当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。本实施例中,根据相同的分词技术对获取的用户语料进行分词,得到相应的正则表达式,然后将正则表达式中包含的词性以及对应的词语和语义槽进行匹配得出匹配结果,从而快速准确地识别用户语句是否无意义。本发明的第四实施例,是上述第一实施例的优化实施例,如图4所示,包括:S100获取无意义语料集,根据所述无意义语料集总结语料正则表达式。S200根据所述语料正则表达式得出判定语料无意义的判定条件。S300获取用户语句。S600当所述用户语句符合所述判定条件时,判定所述用户语句无意义。S710当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词,根据所述关键词进行意图推荐和或语音引导;和或,具体的,当上述判定获取的用户语句无意义后,按照用户设置的先后顺序选择一种或多种词性对应的词语作为关键词,然后根据关键词进行意图推荐或语音引导。例如,用户设置选取一种词性的词语作为关键词,优先选取形容词,其次选择动词,最后选择时间词,如果用户语句中没有形容词,担忧动词和时间词,则选择动词对应的词语作为关键词。S720将所述正则表达式中与所述语义槽匹配符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干,根据所述有效主干进行意图推荐和或语音引导。具体的,当上述判定获取的用户语句无意义后,还可以选择将正则表达式中与语义槽匹配符合的词语排除,提取剩余的词语作为有效主干,然后根据有效主干进行意图推荐或语音引导。例如,判定条件为语料中“的”的比例超过40%,语义槽为词性“的”以及相同语义的“地”、“得”,则将用户语句对应的正则表达式中的“的”、“地”、“得”全部排除,剩余的部分作为有效主干进行识别用户意图。本实施例中,在判定获取的用户语句无意义之后,仍然通过选取关键词或者提取有效主干的方式尽可能地识别用户的真实意图,而根据选取关键词或者提取有效主干识别用户真实意图排除了一些词语的干扰,一定程度上降低了误解用户意图的可能性。本发明的第五实施例,如图5所示,一种无意义语料的分析系统100,包括:处理模块110,获取无意义语料集,根据所述无意义语料集总结语料正则表达式。具体的,处理模块110收集大量的无意义语料样本,其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。处理模块110分析每一个语料样本中的词语以及对应的词性,从而得出每一个语料样本对应的语料正则表达式,每一个语料样本中能够明确词性的词语在对应的语料正则表达式中用对应的词性表达,例如动词、形容词等,其它无法用词性代替的词或者是特定词性的词语在语料正则表达式中仍然用原始词语表示,例如怎么样、有多少等。控制模块120,根据所述处理模块110总结的所述语料正则表达式得出判定语料无意义的判定条件。具体的,按照上述的方法每一个语料样本都能得到对应的一条语料正则表达式,控制模块120综合分析所有的语料样本的语料正则表达式,找出无意义语料中的共同特征,从而得出判定语料无意义的判定条件。由于无意义语料集中包含的语料样本数量较多,可能不存在某一特征在所有的语料正则表达式中都存在,因此可以通过系统设定或者用户自主设置,满足一定数量或一定比例的语料样本对应的语料正则表达式的公共特征为该判定条件即可。获取模块130,获取用户语句。判定模块160,当所述获取模块130获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义。具体的,获取模块130获取用户语句,如果用户通过交互系统输入的是文字,则判定模块160直接将输入的用户语句和判定条件进行匹配,如果匹配的结果是相符,则判定输入的用户语句是无意义的。如果匹配的结果是不相符,则判定输入的用户语句具有一定的实际意义,因此对输入的用户语句进行解析,从而识别用户的真实意图进行相应的反馈。如果用户通过交互系统选择的的语音交互的方式,则判定模块160首先将用户输入的用户语句转化为识别文本,然后将该识别文本和上述的判定条件进行匹配,如果匹配的结果是相符,则判定输入的用户语句无意义。如果匹配的结果是不相符,说明用户语句具有实际意义,则通过用户语句的识别用户的意图进行相应的反馈。分析模块170,当所述判定模块160判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。具体的,当上述结果表明获取的用户语句无意义之后,则分析模块170分析用户语句或者由用户语句转化的识别文本,得到其中的关键词或者进行筛选得到有效主干,根据该关键词或者该有效主干判断用户的意图,进而进行相应的意图推荐或者语音引导。本实施例中,通过收集大量的无意义的语料样本形成无意义语料集,然后从中总结语料正则表达式,从而得出判定语料无意义的判定条件,建立在大量样本上得出的判定条件能够更加准确地筛选出无意义的用户语句,减少出现遗漏或错误的可能性。另外,在判定用户语句无意义后,仍然分析用户语句中的关键词或者有效主干,从中获取用户的真实意图,进而进行意图推荐或语音引导,避免根据最初的用户语句做出不相关的反馈。本发明的第六实施例,是上述第五实施例的优化实施例,如图6所示,包括:处理模块110,获取无意义语料集,根据所述无意义语料集总结语料正则表达式。所述处理模块110具体包括:分词单元111,获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性。具体的,分词单元111获取无意义语料集,根据分词技术对无意义语料集中的语料样本进行分词,如果该语料样本是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行分词。上述的分词技术具体方法为:首先判断语料样本中句子的结构,然后将语料样本中的每一句话中根据词语的词性以及词语之间的关系将整个句子划分为字、词以及短语等分词构成。处理单元112,根据语料特征总结语料正则表达式,所述语料特征包括分词单元111得到的所述词语以及所述词性。具体的,通过上述分词技术将语料样本进行分词之后得到若干语料特征,处理单元112根据该语料特征总结得出语料正则表达式,该语料特征为上述分词之后的字、词以及短语等分词、该分词对应的词性以及该分词在语料样本的句子中对应的关系。其中,每一个字、词以及短语等分词在对应的语料正则表达式中的表现形式可能是对应的词性,也可能是初始的字、词以及短语等分词,可以系统设定或者用户自主设置。例如,某一语料样本为:描写秋天的作文有哪些。通过分词技术判断该语料样本中涵盖的词语的词性:描写动词秋天时间词的助词作文名词有动词哪些代词,词语之间的关系为:定中关系:作文名词-描写动词,动宾关系:描写动词-秋天时间词,有动词-哪些代词。其中,一部分的字、词语用相应的词性代替,另一部分的字、词语用初始的字、词表示,因此该语料样本对应的语料正则表达式为:描写#时间词#的#名词#有哪些。控制模块120,根据所述处理模块110总结的所述语料正则表达式得出判定语料无意义的判定条件。所述控制模块120具体包括:统计单元121,统计所述语料正则表达式中包含的词性的种类及数量。具体的,统计单元121根据每一个语料正则表达式中的各个分词的词性统计该语料正则表达式中包含的词性的种类,以及每种词性对应的字、词以及短语等分词的数量,进而计算每种词性对应的字、词以及短语等分词在所有的字、词以及短语等分词中所占的比例。对于在语料正则表达式中没有用对应的词性进行表达的字、词以及短语等分词,可以直接将初始的字、词以及短语进行分类统计,也就是说将该初始的字、词以及短语作为某一种“词性”。对于这种词性的分词,由于每个人表述方式的差异性,因此在统计过程中极小的可能碰到完全一致的分词,因此需要考虑到分词的语义,然后将语义相同的分词归为同一类。例如“的”、“地”以及“得”,或者“和”、“与”、“以及”等。例如,某一语料样本为:描写秋天的作文有哪些。对应的语料正则表达式为:描写#时间词#的#名词#有哪些。统计得到“描写”数量一,“时间词”数量一,“的”数量一,“名词”数量一。“有哪些”数量一,将“描写”、“的”、“有哪些”作为“时间词”和“名词”的同一级别的词性。控制单元122,分析所述控制单元122分析出的所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值。具体的,通过上述的统计单一的语料正则表达式中包含的词性的种类以及每种词性对应数量或比例,控制单元122分析所有的语料正则表达式中包含的词性的种类及数量,得出判定语料无意义的判定条件。获取所有的语料正则表达式中包含所有的词性的种类,逐一统计每种词性的分词在每一个语料正则表达式中出现的比例,其中,有的种类的词性在一个或多个语料正则表达式中出现的比例可能是0,特别是该种词性为语料正则表达式中初始的字、词以及短语。然后对比分析每种词性在每个语料正则表达式中出现的比例,得到无意义语料库中一定比例的语料样本中某种或多种词性的分词的比例超过一定阈值,就将语料中该种或多种词性的分词的比例超过该阈值作为判定条件。例如得出无意义语料库中70%的语料样本中的“的”的比例超过40%,则将语料中“的”的比例超过40%作为判定条件。上述举例中的70%和40%两个阈值仅作为举例,实际应用过程中用户可以自由设置,两者的数值可以相同也可以不相同。转化单元123,将所述统计单元121得到的所述判定条件中包含的词性以及对应的词语转化为语义槽。具体的,由于后续对用户语句进行判定,也就是和上述判定条件进行比对,因此转化单元123将判定条件中的词性以及对应的词语转化为语义槽,其中在语料正则表达式中用对应的词性表达的分词只将词性转化为语义槽,用初始字、词、短语表达的分词则是将词性和对应的词语都转化为语义槽。对于上述举例,将语料中“的”的比例超过40%作为判定条件,则将词性“的”以及相同语义的“地”、“得”转化为语义槽。如果判定条件是形容词的比例超过40%,则将词性形容词转化为语义槽。获取模块130,获取用户语句。判定模块160,当所述获取模块130获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义。分析模块170,当所述判定模块160判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。本实施例中,对无意义语料库中的每一个语料样本逐一进行解析得到对应的语料正则表达式,统计分析所有的语料样本的语料正则表达式,然后得出判定条件,从而确保能够准确识别无意义的语料。本发明的第七实施例,是上述第五实施例和第六实施例的优化实施例,如图7所示,包括:处理模块110,获取无意义语料集,根据所述无意义语料集总结语料正则表达式。控制模块120,根据所述处理模块110总结的所述语料正则表达式得出判定语料无意义的判定条件。获取模块130,获取用户语句。分词模块140,根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式。具体的,分词模块140根据分词技术对获取的用户语句进行分词,首先判断用户语句中句子的结构,然后将用户语句中的每一句话中根据词语的词性以及词语之间的关系将整个句子划分为字、词以及短语等分词构成,从而得到对应的正则表达式。匹配模块150,将所述分词模块140转化的所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。具体的,匹配模块150将正则表达式中的词语以及对应的词性和语义槽进行匹配,由于正则表达式中每一个字、词以及短语等分词的表现形式可能是对应的词性,也可能是初始的字、词以及短语等分词,考虑到匹配速度,优先匹配在正则表达式中用对应的词性表达的分词是否和语义槽匹配,然后再将在正则表达式中用初始的字、词以及短语表达的分词和语义槽进行匹配。但是实际上在正则表达式中用对应的词性表达的分词和在正则表达式中用初始的字、词以及短语表达的分词与语义槽匹配的先后顺序并不影响匹配结果,可以自行选择。判定模块160,当所述获取模块130获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义。分析模块170,当所述判定模块160判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。本实施例中,根据相同的分词技术对获取的用户语料进行分词,得到相应的正则表达式,然后将正则表达式中包含的词性以及对应的词语和语义槽进行匹配得出匹配结果,从而快速准确地识别用户语句是否无意义。本发明的第八实施例,是上述第五实施例的优化实施例,如图8所示,包括:处理模块110,获取无意义语料集,根据所述无意义语料集总结语料正则表达式。控制模块120,根据所述处理模块110总结的所述语料正则表达式得出判定语料无意义的判定条件。获取模块130,获取用户语句。判定模块160,当所述获取模块130获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义。分析模块170,当所述判定模块160判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。所述分析模块170具体包括:分析单元171,当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词。执行单元172,根据所述关键词进行意图推荐和或语音引导;和或,具体的,当上述判定获取的用户语句无意义后,分析单元171按照用户设置的先后顺序选择一种或多种词性对应的词语作为关键词,然后执行单元172根据关键词进行意图推荐或语音引导。例如,用户设置选取一种词性的词语作为关键词,优先选取形容词,其次选择动词,最后选择时间词,如果用户语句中没有形容词,担忧动词和时间词,则选择动词对应的词语作为关键词。所述分析单元171,将所述正则表达式中与所述语义槽符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干。所述执行单元172,根据所述有效主干进行意图推荐和或语音引导。具体的,当上述判定获取的用户语句无意义后,分析单元171还可以选择将正则表达式中与语义槽匹配符合的词语排除,提取剩余的词语作为有效主干,然后执行单元172根据有效主干进行意图推荐或语音引导。例如,判定条件为语料中“的”的比例超过40%,语义槽为词性“的”以及相同语义的“地”、“得”,则将用户语句对应的正则表达式中的“的”、“地”、“得”全部排除,剩余的部分作为有效主干进行识别用户意图。本实施例中,在判定获取的用户语句无意义之后,仍然通过选取关键词或者提取有效主干的方式尽可能地识别用户的真实意图,而根据选取关键词或者提取有效主干识别用户真实意图排除了一些词语的干扰,一定程度上降低了误解用户意图的可能性。应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

权利要求:1.一种无意义语料的分析方法,其特征在于,包括:获取无意义语料集,根据所述无意义语料集总结语料正则表达式;根据所述语料正则表达式得出判定语料无意义的判定条件;获取用户语句;当所述用户语句符合所述判定条件时,判定所述用户语句无意义;当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。2.根据权利要求1所述的无意义语料的分析方法,其特征在于,所述的获取无意义语料集,根据所述无意义语料集总结语料正则表达式具体包括:获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性;根据语料特征总结语料正则表达式,所述语料特征包括所述词语以及所述词性。3.根据权利要求2所述的无意义语料的分析方法,其特征在于,所述的根据所述语料正则表达式得出判定语料无意义的判定条件具体包括:统计所述语料正则表达式中包含的词性的种类及数量;分析所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值;将所述判定条件中包含的词性以及对应的词语转化为语义槽。4.根据权利要求3所述的无意义语料的分析方法,其特征在于,所述的获取用户语句之后,所述的当所述用户语句符合所述判定条件时,判定所述用户语句无意义之前包括:根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式;将所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。5.根据权利要求4所述的无意义语料的分析方法,其特征在于,所述的当判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导具体包括:当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词,根据所述关键词进行意图推荐和或语音引导;和或,将所述正则表达式中与所述语义槽匹配符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干,根据所述有效主干进行意图推荐和或语音引导。6.一种无意义语料的分析系统,其特征在于,包括:处理模块,获取无意义语料集,根据所述无意义语料集总结语料正则表达式;控制模块,根据所述处理模块总结的所述语料正则表达式得出判定语料无意义的判定条件;获取模块,获取用户语句;判定模块,当所述获取模块获取的所述用户语句符合所述判定条件时,判定所述用户语句无意义;分析模块,当所述判定模块判定所述用户语句无意义后,分析所述用户语句的关键词和或提取所述用户语句的有效主干进行意图推荐和或语音引导。7.根据权利要求6所述的无意义语料的分析系统,其特征在于,所述处理模块具体包括:分词单元,获取所述无意义语料集,根据分词技术对所述无意义语料集中的语料样本进行分词,得到所述语料样本中包含的词语及对应的词性;处理单元,根据语料特征总结语料正则表达式,所述语料特征包括分词单元得到的所述词语以及所述词性。8.根据权利要求7所述的无意义语料的分析系统,其特征在于,所述控制模块具体包括:统计单元,统计所述语料正则表达式中包含的词性的种类及数量;控制单元,分析所述控制单元分析出的所有的语料正则表达式中词性的种类及数量,得出判定语料无意义的所述判定条件,所述判定条件为一种或多种词性的词语的数量达到阈值;转化单元,将所述统计单元得到的所述判定条件中包含的词性以及对应的词语转化为语义槽。9.根据权利要求8所述的无意义语料的分析系统,其特征在于,还包括:分词模块,根据所述分词技术对所述用户语句进行分词,转化为对应的正则表达式;匹配模块,将所述分词模块转化的所述正则表达式中的词语及对应的词性和所述语义槽进行匹配。10.根据权利要求9所述的无意义语料的分析系统,其特征在于,所述分析模块具体包括:分析单元,当判定所述用户语句无意义后,将一种或多种词性对应的词语作为所述用户语句的关键词;执行单元,根据所述关键词进行意图推荐和或语音引导;和或,所述分析单元,将所述正则表达式中与所述语义槽符合的词语排除,提取所述正则表达式中剩余的词语作为所述用户语句的有效主干;所述执行单元,根据所述有效主干进行意图推荐和或语音引导。

百度查询: 广东小天才科技有限公司 一种无意义语料的分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。