首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

类别专名挖掘方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:百度在线网络技术(北京)有限公司

摘要:本发明实施例公开了一种类别专名挖掘方法及装置。所述方法包括:首先,将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板,其中查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;然后,再将至少一个目标类别模板,与查询句词集合中的查询句词进行匹配,得到目标类别下与至少一个目标类别模板对应的至少一个候选专名。本实施例提供的技术方案,能够提高挖掘准确率,便于后续能够很好的理解用户在搜索产品中输入的查询句词。

主权项:一种类别专名挖掘方法,其特征在于,包括:将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名;其中,将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,包括:针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该种子词;如果所述查询句词集合中的查询句词包含该种子词,则基于包含该种子词的查询句词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板。

全文数据:类别专名挖掘方法及装置技术领域[0001]本发明实施例涉及数据挖掘技术领域,尤其涉及一种类别专名挖掘方法及装置。背景技术[0002]命名实体NamedEngity是人名、地名、机构名等以名称为标识的实体,也叫做专名。一个专名可以同时属于多个类别,例如“苹果”这一专名,其可以属于水果这一类别,也可属于电子产品这一类别;一个类别也可以包括多个专名,例如,“北京”、“上海”和“深圳”等都属于地名这一类别。专名是信息提取、问答系统、句法分析等多种自然语言处理技术所依赖的基础资源。如果能将一些类别下所包含的各个专名挖掘出来,将非常有助于搜索产品来理解用户所输入的查询句词,从而大大提高搜索结果的正确率与召回率。[0003]目前,主要是通过对垂直网站内容进行挖掘来得到类别专名。比如,从黄页网站挖掘机构名,从地理信息网站挖掘地名等。所谓垂直网站,指的是用于提供特定领域或满足特定需求的全部深度信息和相关服务的网站。[0004]但是,基于垂直网站内容挖掘得到的专名一般书写比较规范整齐,而在搜索产品中用户输入的查询句词随意性却很大,所以基于挖掘到的专名,也不能够很好的理解用户在搜索产品中输入的查询句词。比如电影名“少年派的奇幻漂流”,用户在搜索时一般只输入“电影少年派”。这样,从垂直网站挖掘到的专名词典只有规范的专名“少年派的奇幻漂流”,而没有缩写的专名“少年派”,这样就会导致搜索产品在理解用户查询词句时无法识另Γ少年派”这种专名。发明内容[0005]本发明实施例提供一种类别专名挖掘方法及装置,以提高挖掘准确率,便于后续能够很好的理解用户在搜索产品中输入的查询句词。[0006]第一方面,本发明实施例提供了一种类别专名挖掘方法,该方法包括:[0007]将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;[0008]将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。[0009]第二方面,本发明实施例还提供了一种类别专名挖掘装置,该装置包括:[0010]目标类别模板生成单元,用于将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;[0011]候选专名生成单元,用于将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。[0012]本发明实施例提供的技术方案,区别于从垂直网站内容来挖掘专名,而是基于用户在搜索引擎中输入的历史查询句词所组成的这样一个集合,首先利用预先生成目标类别下的至少一个种子词,得到该集合中所包含的目标类别下的各个模板,然后再利用得到的各个模板来挖掘该集合中所包含的专名,从而能挖掘出其他方法很难挖到的专名,对专名词典做了有力的补充,提高了专名挖掘的准确率,并且非常有利于后续对用户在搜索产品中输入的查询句词的理解。附图说明[0013]图1是本发明实施例一提供的一种类别专名挖掘方法的流程示意图;[00M]图2是本发明实施例二提供的一种类别专名挖掘方法的流程示意图;[0015]图3是本发明实施例三提供的一种类别专名挖掘方法的流程示意图;[0016]图4是本发明实施例四提供的一种类别专名挖掘方法的流程示意图;[0017]图5是本发明实施例五提供的一种类别专名挖掘装置的结构示意图。具体实施方式[0018]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。[0019]实施例一[0020]图1是本发明实施例一提供的一种类别专名挖掘方法的流程示意图。本实施例可适用于对目标类别下的专名进行挖掘的情况,以帮助搜索产品来理解用户所输入的查询句词,从而大大提高搜索结果的正确率与召回率。其中,目标类别可以是地名、歌曲、歌手或者电影等。所述方法可以由类别专名挖掘装置来执行,该装置可由软件和或硬件实现。参见图1,本实施例提供的类别专名挖掘方法具体包括如下操作:[0021]操作110、将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板。[0022]其中,查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合。[0023]操作120、将至少一个目标类别模板,与查询句词集合中的查询句词进行匹配,得到目标类别下与至少一个目标类别模板对应的至少一个候选专名。[0024]为实现在上述查询句词集合中进行目标类别下专名的挖掘,预先设定多个目标类别下的种子词。进而,在获取到专名挖掘请求后:[0025]首先,根据预先设定的目标类别下的多个种子词,在查询句词集合中挖掘出多个目标类别模板;其中,目标类别模板是根据包含有种子词的查询句词中除种子词之外的剩余部分得到的;[0026]之后,再根据得到的多个目标类别模板,在查询句词集合中挖掘出目标类别下的候选专名;其中,目标类别下的候选专名是根据包含有目标类别模板的查询句词中除目标类别模板之外的剩余部分得到的。[0027]在得到候选专名之后,可以直接将所得的所有候选专名,作为本次挖掘最终得到的目标类别下的专名,或者依据设定算法对所得的所有候选专名进行排名,将位于前NN为大于1的整数名的候选专名作为本次挖掘最终得到的目标类别下的专名。[0028]在本实施例中,对于种子词的设定可由多种方式实现。例如,可将预先得知的目标类别下的专名,直接作为种子词。但是,由于本实施例的实现思想是先根据种子词在查询句词集合中挖掘目标类别模板,之后再根据目标类别模板在查询句词集合中挖掘目标类别下的候选专名,因此种子词选取的合适与否会直接影响后续挖掘到的候选专名的准确度。[0029]具体的,如果种子词选取不当,则后续根据该种子词挖掘得到的候选专名极大可能并非目标类别下的专名,而是其他类别下的专名,进而造成专名挖掘的准确率降低。例如,当前实现的是对影视类别下专名的挖掘,但是由于影视类别和游戏类别下的部分专名是相同的,即一些专名既是游戏类别下的专名同时也是影视类别下的专名,一旦将这样的词作为种子投放到查询句词集合中,后续提取的目标类别模板时就会存在误差,很多本应是游戏类别下的模板就会出现在影视类别下的模板中,反之亦然。如果再利用本身已经存在误差的目标类别模板再挖掘目标类别下的候选专名,其挖掘结果的有效性必然得不到保证。[0030]为此,作为本实施例的一种优选实施方式,可从预先得知的一些目标类别下的专名中,选取一些明显不属于其他类别且出现频率较高的词设定为种子词。[0031]在本实施例中,将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板,可具体包括:[0032]针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该种子词;[0033]如果查询句词集合中的查询句词包含该种子词,则基于包含该种子词的查询句词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板;或者[0034]针对查询句词集合中的各个查询句词,分别与预设的目标类别下的至少一个种子词中的每个种子词进行匹配,以判断该查询句词是否包含种子词;[0035]如果该查询句词中包含种子词,则基于该查询句词中除所包含的种子词之外的剩余部分,得到与所包含的种子词对应的目标类别模板;[0036]其中,基于包含有种子词的查询句词中除该种子词之外的剩余部分,得到目标类别模板,可具体是:将包含有种子词的查询句词中,位于种子词前面的部分分词或全部分词,作为与所包含的种子词对应的一个目标类别模板,和或,位于种子词后面的部分分词或全部分词,作为与所包含的种子词对应的一个目标类别模板。例如,在进行歌手类别下的专名挖掘时,某个查询词为“陈奕迅歌曲”,其包含有种子词“陈奕迅”,则其中所包含的“歌曲”便为一个与种子词“陈奕迅”对应的歌手类别模板;在进行影视类别下的专名挖掘时,某个查询词为“下载钢铁侠”,其包含有种子词“钢铁侠”,则其中所包含的“下载”便为一个与种子词“钢铁侠”对应的影视类别模板。相应的,将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,可具体包括:[0037]针对至少一个目标类别模板中的每个模板,与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该模板;[0038]如果查询句词集合中的查询句词包含该模板,则基于包含该模板的查询句词中除该模板之外的剩余部分,得到与该模板对应的候选专名;或者[0039]针对查询句词集合中的各个查询句词,与至少一个目标类别模板中的每个模板进行匹配,以判断该查询句词是否包含模板;[0040]如果该查询句词中包含模板,则基于该查询句词中除所述所包含的模板之外的剩余部分,得到与所包含的模板对应的候选专名。[0041]其中,基于包含有模板的查询句词中除该模板之外的剩余部分,得到候选专名,可具体是:将包含有模板的查询句词中,位于模板前面的部分分词或全部分词,作为与所包含的模板对应的一个候选专名,和或,位于模板后面的部分分词或全部分词,作为与所包含的模板对应的一个候选专名。[0042]在本实施例的一种优选的具体实施方式中,为加快挖掘速度,可在利用种子在查询句词集合中挖掘出目标类别模板后,将查询句词集合中包含有种子词的查询句词确定为一个子集合,后续在利用目标类别模板进行候选专名挖掘时,由于所述子集合中所包含的种子词即为目标类别下的专名,无需再挖掘,此时仅将目标类别模板与查询句词集合中除所述子集合之外的查询句词进行匹配,以挖掘出候选专名。[0043]为更清楚的阐述本实施例提供的技术方案,先进行举例说明。例如,要对影视类别下的专名进行挖掘,下表1为查询句词集合中所包含的各个查询句词:[0045]预设的影视类别下的种子词为:“少年派”、“心花路放”、“来自星星的你”、“归来”、“喜洋洋”、“钢铁侠”、“小时代”。[0046]首先,根据预先设定的种子词“少年派”、“心花路放”、“来自星星的你”、“归来”、“喜洋洋”、“钢铁侠”和“小时代”,在查询句词集合中挖掘出多个目标类别模板:与种子词“少年派”对应的“电影”;与种子词“心花路放”对应的“下载”;与种子词“来自星星的你”对应的“电视剧”;与种子词“归来”对应的“下载”;与种子词“喜洋洋”对应的“动画片”;与种子词“钢铁侠”对应的“电影”;与种子词“小时代”对应的“电影”和“电视剧”。[0047]由此可见,得到的目标类别模板分别为:“电影”、“下载”、“电视剧”以及“动画片”。[0048]之后,再根据得到的各个目标类别模板,在查询句词集合中挖掘出目标类别下的候选专名:与模板“电影”对应的5个候选专名为“亲爱的”、“非诚勿扰”、“小时代”、“少年派”以及“钢铁侠”;与模板“下载”对应的5个候选专名为“小苹果”、“舞蹈”、“心花路放”、“归来”以及“忐忑”;与模板“电视剧”对应的4个候选专名为“三国演义”、“来自星星的你”、“小时代”以及“雪豹”。需要说明的是,在实际执行专名挖掘时,查询句词集合中所包含的查询句词个数以及种子词的个数均要远大于上述所示的个数,此处仅作为一种示例来详述本实施例提供的技术方案。[0049]本实施例提供的技术方案,区别于从垂直网站内容来挖掘专名,而是基于用户在搜索引擎中输入的历史查询句词所组成的这样一个集合,首先利用预先生成目标类别下的至少一个种子词,得到该集合中所包含的目标类别下的各个模板,然后再利用得到的各个模板来挖掘该集合中所包含的专名,从而能挖掘出其他方法很难挖到的专名,对专名词典做了有力的补充,提高了专名挖掘的准确率,并且非常有利于后续对用户在搜索产品中输入的查询句词的理解,进而使得搜索结果的正确率与召回率得以提高。[0050]实施例二[0051]图2是本发明实施例二提供的一种类别专名挖掘方法的流程示意图,本实施例在上述实施例一的基础上,在“得到目标类别下的至少一个候选专名”这一操作之后,进一步增加了“确定各个候选专名的权重”以及“依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名”的操作,以更好的保证所挖掘除的专名的有效性。参见图2,本实施例提供的类别专名挖掘方法具体包括如下操作:[0052]操作210、将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板。[0053]其中,查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合。操作220、将至少一个目标类别模板,与查询句词集合中的查询句词进行匹配,得到目标类别下与至少一个目标类别模板对应的至少一个候选专名。[0054]操作230、根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定至少一个候选专名中各个候选专名的权重;[0055]其中,任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和。[0056]例如,对于实施例一中所述示例,在表1所示的查询句词集合中,与候选专名“小时代”对应的所有影视类别模板为:“电影”和“电视剧”,故候选专名“小时代”的权重为影视类别模板“电影”的权重与影视类别模板“电视剧”的权重之和。[0057]需要说明的是,本实施例对各个目标类别模板的权重的确定,不作具体限定。可以设定各个目标类别模板的权重均相等;或者,根据在生成各个目标类别模板时,与各个目标类别模板对应的种子词的个数,来确定各个目标类别模板的权重。例如,在将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配后,得到了两个目标类别模板:其中与第一个目标类别模板对应的种子词个数为15,与第二个目标类别模板对应的种子词个数为20,则可直接确定第一个目标类别模板和第二个目标类别模板的权重分别为10和20,或者是以比例的形式表示,即分别为lV10+20=13和2V10+20=23。[0058]操作240、依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。[0059]本实施例在得到至少一个候选专名之后,可进一步根据这些候选专名的权重大小,对其进行排序,之后按照排序结果从中选取位于前N名的候选专名作为目标类别下的至少一个挖掘专名,作为本次挖掘得到的最终结果。这样可以剔除一些出现频次较低的,或者存在属于其他类别风险的候选专名,进而能够在一定程度上克服所挖掘到的专名是无效的这一弊端,提升后续处理对专名挖掘的信任度。[0060]实施例三[0061]图3是本发明实施例三提供的一种类别专名挖掘方法的流程示意图。本实施例在上述实施例二的基础上,对在确定各个候选专名的权重时,所需的各个目标类别模板的权重的生成操作进行优化。参见图3,本实施例提供的类别专名挖掘方法具体包括如下操作:[0062]操作310、将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板。[0063]其中,查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合。操作320、生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数。[0064]操作330、将至少一个目标类别模板,与查询句词集合中的查询句词进行匹配,得到目标类别下与至少一个目标类别模板对应的至少一个候选专名。[0065]操作340、基于预设的正反例词典,以及所得到的至少一个候选专名,修正所生成的与至少一个目标类别模板中的每个模板相对应的权重。[0066]在本实施例中,虽然在执行完操作310后得到了目标类别模板,但这只是粗略的,不够准确。比如所得到的一个目标类别模板为“下载”,实际上并不能够确定与该模板对应的是何种类别的专名,很显然,其对应的专名可能是电影、游戏、软件、歌曲等等类别。这说明这个模板是“不专一”的,所以可基于预设的正反例词典,对与此类模板对应的候选专名进行过滤,或者降权修正。[0067]其中,正反例词典中由多个正例专名和反例专名组成。正例专名为人工标注的属于目标类别下的专名,反例专名为人工标注的不属于目标类别下的专名。利用该正反例词典,能够识别与各个目标类别权重对应的所有候选专名中哪些候选专名是正确的,哪些候选专名是错误的,正确的候选专名即为正例专名,错误的即为反例专名。[0068]基于预设的正反例词典,以及所得到的至少一个候选专名,修正所生成的与至少一个目标类别模板中的每个模板相对应的权重,具体包括:[0069]基于预设的正反例词典,识别所得到的目标类别下与至少一个目标类别模板对应的至少一个候选专名中的正例专名和反例专名;[0070]根据识别结果,对所生成的各模板的权重进行修正;其中,任一模板修正后的权重为:与该模板对应的修正比例与修正前权重之积;与该模板对应的修正比例为:在与该模板对应的所有候选专名中,正例专名个数占正例专名个数与反例专名个数之和的比重。[0071]例如,基于预设的正反例词典,识别出与所得到的某个目标类别模板对应的50个候选专名中,有30个候选专名为正例专名,有10个候选专名为反例专名,则与该目标类别模板对应的修正比例为:3V30+10=34。[0072]在本实施例的一个优选的实施方式中,在根据识别结果,对所生成的各模板的权重进行修正之后,还进一步包括:剔除所得到的目标类别下与至少一个目标类别模板对应的至少一个候选专名中的反例专名。[0073]操作350、根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定至少一个候选专名中各个候选专名的权重。[0074]其中,任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和。[0075]操作360、依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。[0076]需要说明的是,本实施例对操作320和操作330这两者之间的先后执行顺序不作限定。除上述具体实现方式外,操作330还可先于操作320执行。[0077]本实施例提供的技术方案,从用户在搜索引擎输入的历史查询句词组成的集合中挖掘专名,能够挖掘出其他方法很难挖到的专名,并根据正反例词典对挖掘结果做了有力的修正,能够给利用类别专名挖掘结果实现其他功能的多种上层应用带来效果的提升。[0078]实施例四[0079]图4是本发明实施例四提供的一种类别专名挖掘方法的流程示意图。本实施例在上述各实施例的基础上,在依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后,进一步增加了“对至少一个挖掘专名中的各挖掘专名进行置信度计算,并根据置信度计算结果,进一步从至少一个挖掘专名中筛选出最终的挖掘专名”的操作。参见图4,本实施例提供的类别专名挖掘方法具体包括如下操作:[0080]操作410、将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与至少一个种子词对应的至少一个目标类别模板。[0081]其中,查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合。[0082]操作420、将至少一个目标类别模板,与查询句词集合中的查询句词进行匹配,得到目标类别下与至少一个目标类别模板对应的至少一个候选专名。[0083]操作430、根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定至少一个候选专名中各个候选专名的权重。[0084]其中,任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和。[0085]操作440、依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。[0086]需要说明的是,在本实施例的操作410与操作420之间,还可包括与实施例三中操作320相同的操作:生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数;在本实施例的操作420与操作430之间,还可包括与实施例三中操作340相同的操作:基于预设的正反例词典,以及所得到的至少一个候选专名,修正所生成的与至少一个目标类别模板中的每个模板相对应的权重。[0087]尽管上述技术方案已经对目标类别模板的权重进行修正,以能够准确的衡对所挖掘到的各候选专名的质量,提取质量较优的作为目标类别下的挖掘专名。但是由于所得到的挖掘专名当中仍然可能存在部分噪声专名,其可能是非专名,也可能是其他类别下的专名,因此在执行完毕上述操作440之后,还可进一步执行操作450-470,以对至少一个挖掘专名中的各挖掘专名进行置信度的计算,并根据置信度计算结果进一步从至少一个挖掘专名中筛选出最终的挖掘专名。操作450、生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成。[0088]操作460、分别针对至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值。[0089]操作470、计算第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从至少一个挖掘专名中筛选出最终的挖掘专名。[0090]实施例五[0091]图5是本发明实施例六提供的一种类别专名挖掘装置的结构示意图。本实施例可适用于对目标类别下的专名进行挖掘的情况,其中该目标类别可以是地名、歌曲、歌手或者电影等。参见图5,该类别专名挖掘装置的具体结构如下:[0092]目标类别模板生成单元510,用于将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;[0093]候选专名生成单元520,用于将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名。[0094]进一步的,所述目标类别模板生成单元510,具体用于:[0095]针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该种子词;[0096]如果所述查询句词集合中的查询句词包含该种子词,则基于包含该种子词的查询句词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板;或者[0097]针对查询句词集合中的各个查询句词,分别与预设的目标类别下的至少一个种子词中的每个种子词进行匹配,以判断该查询句词是否包含种子词;[0098]如果该查询句词中包含种子词,则基于该查询句词中除所包含的种子词之外的剩余部分,得到与所包含的种子词对应的目标类别模板;[0099]所述候选专名生成单元520,具体用于:[0100]针对至少一个目标类别模板中的每个模板,与所述查询句词集合中的各个查询句词进行匹配,以判断所述查询句词集合中的各个查询句词是否包含该模板;[0101]如果查询句词集合中的查询句词包含该模板,则基于包含该模板的查询句词中除该模板之外的剩余部分,得到与该模板对应的候选专名;或者[0102]针对查询句词集合中的各个查询句词,与至少一个目标类别模板中的每个模板进行匹配,以判断该查询句词是否包含模板;[0103]如果该查询句词中包含模板,则基于该查询句词中除所述所包含的模板之外的剩余部分,得到与所包含的模板对应的候选专名。[0104]进一步的,本实施例提供的类别专名挖掘装置还包括:[0105]候选专名权重计算单元530,用于在所述候选专名生成单元520得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名之后,根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定所述至少一个候选专名中各个候选专名的权重;其中任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和;[0106]类别专名确定单元540,用于依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。[0107]进一步的,本实施例提供的类别专名挖掘装置还包括类别模板权重计算单元550,用于在所述目标类别模板生成单元510将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板之后,且所述候选专名权重计算单元530根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前:[0108]生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数。[0109]进一步的,本实施例提供的类别专名挖掘装置还包括修正单元560,用于在所述候选专名生成单元520得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,且所述类别模板权重计算单元550生成与至少一个目标类别模板中的每个模板相对应的权重之后,在所述候选专名权重计算单元530根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前:[0110]基于预设的正反例词典,识别所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的正例专名和反例专名;[0111]根据识别结果,对所生成的各模板的权重进行修正;其中,任一模板修正后的权重为:与该模板对应的修正比例与修正前权重之积;与该模板对应的修正比例为:在与该模板对应的所有候选专名中,正例专名个数占正例专名个数与反例专名个数之和的比重;[0112]剔除所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的反例专名。[0113]在上述技术方案的基础上,本实施例提供的类别专名挖掘装置还包括置信度计算单元570,用于在所述类别专名确定单元540依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后:[0114]生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;[0115]分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;[0116]计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。[0117]上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。[0118]注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

权利要求:1.一种类别专名挖掘方法,其特征在于,包括:将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名;其中,将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,包括:针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该种子词;如果所述查询句词集合中的查询句词包含该种子词,则基于包含该种子词的查询句词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板。2.根据权利要求1所述的类别专名挖掘方法,其特征在于,将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,包括:针对查询句词集合中的各个查询句词,分别与预设的目标类别下的至少一个种子词中的每个种子词进行匹配,以判断该查询句词是否包含种子词;如果该查询句词中包含种子词,则基于该查询句词中除所包含的种子词之外的剩余部分,得到与所包含的种子词对应的目标类别模板;将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,包括:针对至少一个目标类别模板中的每个模板,与所述查询句词集合中的各个查询句词进行匹配,以判断所述查询句词集合中的各个查询句词是否包含该模板;如果查询句词集合中的查询句词包含该模板,则基于包含该模板的查询句词中除该模板之外的剩余部分,得到与该模板对应的候选专名;或者针对查询句词集合中的各个查询句词,与至少一个目标类别模板中的每个模板进行匹配,以判断该查询句词是否包含模板;如果该查询句词中包含模板,则基于该查询句词中除所述所包含的模板之外的剩余部分,得到与所包含的模板对应的候选专名。3.根据权利要求1或2所述的类别专名挖掘方法,其特征在于,在得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名之后,还包括:根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定所述至少一个候选专名中各个候选专名的权重;其中任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和;依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。4.根据权利要求3所述的类别专名挖掘方法,其特征在于,在将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板之后,且根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前,还包括:生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数。5.根据权利要求4所述的类别专名挖掘方法,其特征在于,在得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,且生成与至少一个目标类别模板中的每个模板相对应的权重之后,在根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前,还包括:基于预设的正反例词典,识别所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的正例专名和反例专名;根据识别结果,对所生成的各模板的权重进行修正;其中,任一模板修正后的权重为:与该模板对应的修正比例与修正前权重之积;与该模板对应的修正比例为:在与该模板对应的所有候选专名中,正例专名个数占正例专名个数与反例专名个数之和的比重;剔除所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的反例专名。6.根据权利要求3所述的类别专名挖掘方法,其特征在于,在依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后,还包括:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。7.根据权利要求4所述的类别专名挖掘方法,其特征在于,在依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后,还包括:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。8.根据权利要求5所述的类别专名挖掘方法,其特征在于,在依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后,还包括:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。9.一种类别专名挖掘装置,其特征在于,包括:目标类别模板生成单元,用于将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板,其中所述查询句词集合为用户在搜索引擎中输入的历史查询句词组成的集合;候选专名生成单元,用于将至少一个目标类别模板,与所述查询句词集合中的查询句词进行匹配,得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名;其中,目标类别模板生成单元具体用于:针对预设的目标类别下的至少一个种子词中的每个种子词,分别与查询句词集合中的各个查询句词进行匹配,以判断查询句词集合中的各个查询句词是否包含该种子词;如果所述查询句词集合中的查询句词包含该种子词,则基于包含该种子词的查询句词中除该种子词之外的剩余部分,得到与该种子词对应的目标类别模板。10.根据权利要求9所述的类别专名挖掘装置,其特征在于,所述目标类别模板生成单元,具体用于:针对查询句词集合中的各个查询句词,分别与预设的目标类别下的至少一个种子词中的每个种子词进行匹配,以判断该查询句词是否包含种子词;如果该查询句词中包含种子词,则基于该查询句词中除所包含的种子词之外的剩余部分,得到与所包含的种子词对应的目标类别模板;所述候选专名生成单元,具体用于:针对至少一个目标类别模板中的每个模板,与所述查询句词集合中的各个查询句词进行匹配,以判断所述查询句词集合中的各个查询句词是否包含该模板;如果查询句词集合中的查询句词包含该模板,则基于包含该模板的查询句词中除该模板之外的剩余部分,得到与该模板对应的候选专名;或者针对查询句词集合中的各个查询句词,与至少一个目标类别模板中的每个模板进行匹配,以判断该查询句词是否包含模板;如果该查询句词中包含模板,则基于该查询句词中除所述所包含的模板之外的剩余部分,得到与所包含的模板对应的候选专名。11.根据权利要求9或10所述的类别专名挖掘装置,其特征在于,还包括:候选专名权重计算单元,用于在所述候选专名生成单元得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名之后,根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定所述至少一个候选专名中各个候选专名的权重;其中任一候选专名的权重为:与所述任一候选专名对应的所有目标类别模板的权重之和;类别专名确定单元,用于依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名。12.根据权利要求11所述的类别专名挖掘装置,其特征在于,还包括类别模板权重计算单元,用于在所述目标类别模板生成单元将预设的目标类别下的至少一个种子词,与查询句词集合中的查询句词进行匹配,得到与所述至少一个种子词对应的至少一个目标类别模板之后,且所述候选专名权重计算单元根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前:生成与至少一个目标类别模板中的每个模板相对应的权重;其中任一模板的权重为与该模板对应的种子词的个数。13.根据权利要求12所述的类别专名挖掘装置,其特征在于,还包括修正单元,用于在所述候选专名生成单元得到所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名,且所述类别模板权重计算单元生成与至少一个目标类别模板中的每个模板相对应的权重之后,在所述候选专名权重计算单元根据至少一个目标类别模板中各模板的权重,以及与各模板对应的候选专名,确定各个候选专名的权重之前:基于预设的正反例词典,识别所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的正例专名和反例专名;根据识别结果,对所生成的各模板的权重进行修正;其中,任一模板修正后的权重为:与该模板对应的修正比例与修正前权重之积;与该模板对应的修正比例为:在与该模板对应的所有候选专名中,正例专名个数占正例专名个数与反例专名个数之和的比重;剔除所得到的所述目标类别下与所述至少一个目标类别模板对应的至少一个候选专名中的反例专名。14.根据权利要求11所述的类别专名挖掘装置,其特征在于,还包括置信度计算单元,用于在所述类别专名确定单元依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。15.根据权利要求12所述的类别专名挖掘装置,其特征在于,还包括置信度计算单元,用于在所述类别专名确定单元依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。16.根据权利要求13所述的类别专名挖掘装置,其特征在于,还包括置信度计算单元,用于在所述类别专名确定单元依据各个候选专名的权重,确定目标类别下的至少一个挖掘专名之后:生成第一特征向量,所述第一特征向量由各目标类别模板的权重组成;分别针对所述至少一个挖掘专名中的各挖掘专名,生成相应的第二特征向量;其中,所述第二特征向量由当前挖掘专名分别在所述各目标类别模板下的权重组成;当前挖掘专名在任一目标类别模板下的权重为:与当前挖掘专名对应的所述任一目标类别模板的个数,和与当前挖掘专名对应的所有目标类别模板的个数,两者之间的比值;计算所述第一特征向量与各个第二特征向量之间的相似度,并根据计算得到的相似度,对所述至少一个挖掘专名中的各挖掘专名进行排名,以基于排名结果从所述至少一个挖掘专名中筛选出最终的挖掘专名。

百度查询: 百度在线网络技术(北京)有限公司 类别专名挖掘方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。