Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

搜索文本与库文件的相关度计算方法、装置、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:腾讯科技(深圳)有限公司

摘要:本发明公开了一种搜索文本与库文件的相关度计算方法、装置、设备及介质,所述方法包括获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;获取用于进行相关度计算的目标库文本集合;根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。本发明综合考虑搜索文本中各个分词的重要程度和库文件中不同的域在计算相关度时的重要程度,降低了库文本长度对于相关度计算的影响,显著提升相关度计算的准确度。

主权项:1.一种搜索文本与库文件的相关度计算方法,其特征在于,所述方法包括:获取搜索文本,对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量,所述词权重参量表征所述目标分词在所述搜索文本中的权重;根据库文件所在的库文件集合计算每个目标分词的重要度参量,所述重要度参量基于所述库文件集合中命中所述目标分词的库文件的数量和所述库文件集合中库文件的总数确定;获取每个库文本的域,所述域包括标题、简介、正文;将a-b*field_length*field_weight的最大值作为对应的模板分词相对于所述库文本的词频,a,b分别为调节因子,field_length,field_weight分别为模板分词在对应的域出现的次数和域的重要程度;构建每个所述模板分词的倒排集合,所述模板分词相对于所述倒排集合中任意一个库文本的词频均大于预设阈值;记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典;根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合;将各个目标分词对应的目标倒排集合的并集作为目标库文本集合;根据公式计算搜索文本相对于所述目标库文本的重要度,TWqi,IDFqi表示目标分词的词权重参量和重要度参量;根据公式计算搜索文本与所述目标库文本的距离,tfqi表示目标分词相对于目标库文本的词频;若i∈q∩d,qi表示被搜索文本和目标库文本均命中的分词,若i∈q,qi表示被搜索文本命中的目标分词;根据所述重要度和所述距离,计算所述搜索文本与所述目标库文本的相关度。

全文数据:搜索文本与库文件的相关度计算方法、装置、设备及介质技术领域本发明涉及相关度计算领域,尤其涉及搜索文本与库文件的相关度计算方法、装置、设备及介质。背景技术现有技术中通常基于概率检索模型计算搜索文本与库文本集合中各个库文本的相关度,具体地,可以基于搜索文本的各个分词与库文本的相关性以及各个分词的普遍重要度来计算搜索文本与库文本的相关度,其中,所述分词与库文本的相关性易受到库文本集合中各个库文本长度的影响。现有技术中在进行相关度计算时没有充分考虑分词在所述搜索文本中的重要程度,并且其受库文本集合中各个库文本长度影响较大。若库文本集合中各个库文本长度变化较大时,基于现有技术得到的搜索文本与库文本的相关度结果的稳定性也较低,从而导致相关度计算结果的不准确。发明内容为了解决现有技术搜索文本与库文件的相关度计算准确度不高的技术问题,本发明实施例提供一种搜索文本与库文件的相关度计算方法、装置、设备及介质。一方面,本发明提供了一种搜索文本与库文件的相关度计算方法,所述方法包括:获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;获取用于进行相关度计算的目标库文本集合;根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。另一方面,本发明提供了一种搜索文本与库文件的相关度计算装置,所述装置包括:搜索文本获取模块,用于获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;重要度参量获取模块,用于根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;目标库文本集合获取模块,用于获取用于进行相关度计算的目标库文本集合;相关度计算模块,用于根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。另一方面,本发明提供了一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现一种搜索文本与库文件的相关度计算方法。另一方面,本发明提供了一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行一种搜索文本与库文件的相关度计算方法。本发明提供了一种搜索文本与库文件的相关度计算方法、装置、设备及介质。本发明综合考虑了搜索文本中各个分词的重要程度和库文件中不同的域在计算相关度时的重要程度,并且降低了库文本的长度对于相关度计算的影响,从而能够显著提升相关度计算的准确度。进一步地,本发明实施例通过预先建立倒排集合,避免对与搜索文本完全无关的库文件计算相关度,从而降低了相关度计算量,提升了相关度计算速度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本发明提供的一种搜索文本与库文件的相关度计算方法流程图;图2是本发明提供的一种搜索文本与库文件的相关度计算方法实施环境示意图;图3是本发明提供的一种搜索文本与库文件的相关度计算方法流程图;图4是本发明提供的对所述文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量流程图;图5是本发明提供的获取用于进行相关度计算的目标库文本集合流程图;图6是本发明提供的计算库文本集合对于各个模板分词的倒排集合流程图;图7是本发明提供的根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度流程图;图8是本发明提供的相关度获取后的相关数据处理流程图;图9是本发明提供的本发明实施例与现有技术在搜索产品中点击率表现示意图;图10是本发明提供为一种搜索文本与库文件的相关度计算装置框图;图11是本发明提供的目标库文本集合获取模块框图;图12是本发明提供的一种搜索文本与库文件的相关度计算装置的运行环境示意图;图13本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。为了对本发明实施例进行详细说明,本发明实施例中,首先对于涉及到的相关概念进行解释:IDF:InverseDcumentFrequency,逆文本频率。用于度量一个词语的普遍重要性。TF:TermFrequency,词频。用于表征一个词语在某个文件中出现的频率。TW:TermWeight,词权重。用于表征一个词语在某个文本中的重要程度。为了对本发明实施例进行详细阐述,本发明实施例首先对于现有技术中的搜索文本与库文件的相关度计算方案进行描述,如图1所示,所述计算方案包括:S1.对搜索文本进行分词操作以得到至少一个分词。S3.获取各个分词与库文件的相关性得分。具体地,可以参考公式计算所述分词与库文件的相关性,其中qi,d,Rqi,d分别表示分词,库文件以及分词与库文件的相关性得分,fi表示所述分词在所述库文件中出现的频率,dl,avgdl分别表示库文件的长度,和所述库文件所在的库文件集合中全部库文件的平均长度。k1,b为调节因子,一般可以设置k1∈[1,3],b∈[0.5,1]。根据所述公式可知,所述分词在所述库文件中出现的频率越高,所述分词与所述库文件的相关性得分越高,所述库文件的长度与库文件集合中全部库文件的平均长度的比值越高,则分词与所述库文件的相关性得分越低。S5.获取各个分词的逆文本频率。具体地,可以参考公式计算分词的逆文本频率,其中IDFqi,nqi,N分别表示所述分词的逆文本频率,所述库文件所在的库文件集合中命中所述分词的库文件的数量和所述库文件所在的库文件集合中库文件的总数。根据所述公式可知,越为常见的词,其对应的逆文本频率越低,越罕见的词,其对应的逆文本频率越高。S7.以分词对应的逆文本频率为权重,以所述分词与库文件的相关性得分为加数,基于加权平均法计算所述搜索文本与所述库文件的相关度。根据上述现有技术的描述可知,现有技术中对于相关度的计算没有考虑库文件中对分词的命中位置、分词在所述搜索文本中的重要性并且受到库文本集合中各个库文本长度的影响较大,从而影响了相关度计算的准确度。为了获得更为准确的相关度计算结果,本发明实施例提供了一种搜索文本与库文件的相关度计算方法。首先,本发明实施例公开所述一种搜索文本与库文件的相关度计算方法的一种实施场景。参见图2,该实施环境包括:客户端01和服务器03,所述客户端01和服务器03通信连接,所述客户端01获取搜索文本并将所述搜索文本传输至所述服务器03,所述服务器03查询其存储的用于计算与搜索文本的相关度的库中的库文件与所述搜索文本的相关度,并根据所述相关度的计算结果与所述客户端01进行交互。所述客户端01可以基于浏览器服务器模式BrowserServer,BS或客户端服务器模式ClientServer,CS与服务器03通信。客户端01可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。比如,所述客户端01可以运行搜索类软体。所述服务器03均可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。本发明实施例提供了一种搜索文本与库文件的相关度计算方法,如图3所示,所述方法包括:S101.获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量。具体地,所述分词操作可以采用汉字字符串匹配的分词方法、词义分词法或统计分词法。对于汉字字符串匹配的分词方法,可以是正向最大匹配法、反向最大匹配法、双向最大匹配法或最短路径分词法等,本发明实施例并不限定具体的分词操作方法。所述词权重参量用于表征所述目标分词在所述搜索文本中的权重。所述词权重参量可以与目标分词的字数、目标分词的搜索热度等因素相关。具体地,在一个可行的实施方式中,所述对所述文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量,如图4所示,包括:S1011.对所述搜索文本进行分词处理,得到至少一个分词。S1013.基于预设的语料库得到每个分词对应的词权重相关量。词权重相关向量可以包括所述分词与所述语料库中相匹配的最长语料片段的长度、所述分词被所述语料库中的语料命中的次数、所述语料库命中所述分词的语料的平均长度、所述语料库命中所述分词的语料的最短语料的长度的一个或者多个的组合。S1015.利用所述词权重相关及预先构建的词权重参量计算模型,确定所述各个分词对应的词权重参量。具体地,所述词权重参量计算模型可以基于现有的神经网络模型进行训练而得到。S1017.根据各个分词及其对应的词权重参量构建目标分词集合。S103.根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量。具体地,所述重要度参量可以使用逆文本频率表征,所述重要度参量可以参考公式其中IDFqi,nqi,N分别表示所述分词的逆文本频率,所述库文件所在的库文件集合中命中所述分词的库文件的数量和所述库文件所在的库文件集合中库文件的总数。S105.获取用于进行相关度计算的目标库文本集合。现有技术中目标库文本集合即为所述库文本所在的库文本集合的全集,即现有技术中对于库文本集合中的每个库文本均计算其与搜索文本的相关度。本发明实施例认为并不是每个库文本都会命中搜索文本中的至少一个分词,因此库文本集合中并未命中搜索文本的库文件不需要参与到相关度计算之中,因此,本发明实施例增加一个对于库文本集合中的库文件进行过滤的步骤,本实施例中得到的目标库文本集合可以为库文本集合的子集或全集。具体地,所述获取用于进行相关度计算的目标库文本集合,如图5所示,包括:S1051.计算库文本集合对于各个模板分词的倒排集合。现有技术中将基于非主属性来查找记录的过程称为倒排,在本发明实施例中获取倒排集合的意义在于根据分词即可查询到命中所述分词的相关的库文本。为了便于后期在线使用倒排集合,本发明实施例中对尽可能多的模板分词构建倒排集合,使其尽可能地覆盖搜索文本中的分词。具体地,计算库文本集合对于各个模板分词的倒排集合,如图6所示包括:S10511.获取库文本集合中的每个库文本的域。具体地,库文本可以包括多个域,比如,标题,简介,正文等。S10513.获取每个所述模板分词相对于所述库文本的词频,所述模板分词相对于所述库文本的词频为所述模板分词相对于所述库文本的各个域中的文本内容的词频的最大值。具体地,库文本的各个域中的文本内容的词频可参考公式a-b*field_length*field_weight来计算,其中a,b分别为调节因子,field_length,field_weight分别为模板分词在所述域中的文本内容中出现的次数,和域的重要程度。S10515.构建每个所述模板分词的倒排集合,所述模板分词相对于所述倒排集合中任意一个库文本的词频均大于预设阈值。S1053.记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典。在一个可行的实施例中,对各个分词构建其对应的倒排集合,以及记录各个分词与其对应的倒排集合的映射关系的步骤均可以在数据预处理阶段或者离线状态下完成,所述映射关系如表1所示。以在线搜索场景为例,在离线状态下,后台服务器可以为全部可识别的分词构建倒排集合,并将所述倒排集合存储起来,并记录各个分词与其对应的倒排集合的映射关系。当用户在线输入搜索文本时,可以根据离线构建的倒排集合来得到与搜索文本相关的库文本,并只计算与搜索文本相关的库文本与搜索文本的相关度,从而提升计算效率。表1S1055.根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合。S1057.将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。具体地,若所述搜索文本为东欧专利,则所述目标分词集合中包括两个分词“东欧”和“专利”。根据表1所示,“东欧”对应的倒排集合包括四个库文本,“专利”对应的倒排集合包括两个库文本,目标库文本集合包括六个库文本。相对于现有技术中对库文本集合中每个库文本均进行相关度计算,使用本发明实施例所述的技术方案可以仅对于目标库文本集合中的六个库文本进行相关度计算,显然,大大提升了相关度计算速度,并且显著减少了相关度计算量。S107.根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。具体地,所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度,如图7所示,包括:S1071.计算搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度。计算搜索文本相对于某个目标库文本的重要度可以根据公式来计算,其中TWqi,IDFqi表示目标分词的词权重参量和重要度参量,若i∈q∩d,则qi表示被搜索文本和目标库文本均命中的分词,若i∈q,则qi表示被搜索文本命中的目标分词。S1073.计算搜索文本与所述目标库文本集合中的每个目标库文本的距离。计算搜索文本与某个目标库文本的距离可以根据公式来计算,其中tfqi表示目标分词相对于目标库文本的词频。其可以在步骤1051被计算出来并存储于步骤1053中构建的倒排词典之中。S1075.根据搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度以及所述搜索文本与所述目标库文本集合中的每个目标库文本的距离,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度。具体地,本发明实施例中可以以搜索文本与某个目标库文本的重要度与所述搜索文本与所述目标库文本的距离的乘积作为所述搜索文本与所述目标库文本的相关度。在其它可行的实施例中,在获取相关度的结果之后,如图8所示,还可以包括:S201.按照相关度降序的顺序排列目标库文本以得到目标库文本排序表。S203.选取所述目标库文本排序表的前N个目标库文本作为输出文本。具体地,N的值可以根据实际需求进行设定。所述输出文本可以作为渲染依据或者召回依据。本发明实施例公开的一种搜索文本与库文件的相关度计算方法综合考虑了搜索文本中各个分词的重要程度和库文件中不同的域在计算相关度时的重要程度,并且降低了库文本的长度对于相关度计算的影响,从而能够显著提升相关度计算的准确度。进一步地,本发明实施例通过预先建立倒排集合,避免对与搜索文本完全无关的库文件计算相关度,从而降低了相关度计算量,提升了相关度计算速度。本发明实施例能够广泛应用于需要进行相关度计算的场景之中,比如,在搜索产品中,可以直接在获取搜索文本后使用本发明实施例中提供的方法计算搜索文本与库文件的相关度,并根据相关度计算结果显示搜索结果。如若所述搜索产品支持语音输入,还可以获取用户输入的语音,并将语音转换为搜索文本,进而使用本发明实施例公开的相关度计算方法以得到最终的搜索结果。请参考图9,其示出了本发明实施例与现有技术在搜索产品中点击率表现示意图。所述示意图以横坐标表示时间,纵坐标表示点击率,每条折线均对应10%的流量。所述示意图中在竖直黑线所表示的时间节点上,纵坐标较高的多条折线均使用了本申请所述的相关度计算方法,纵坐标较低的多条折线使用了现有技术。显然,本发明实施例的点击率相对于现有技术有明显提升,这得益于本发明实施例相关度计算的准确性提升。本发明实施例还包括一种搜索文本与库文件的相关度计算装置,如图10所示,所述装置包括:搜索文本获取模块301,用于获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;重要度参量获取模块303,用于根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;目标库文本集合获取模块305,用于获取用于进行相关度计算的目标库文本集合;相关度计算模块307,用于根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。具体地,如图11所示,所述目标库文本集合获取模块305包括:倒排集合计算单元3051,用于计算库文本集合对于各个模板分词的倒排集合;倒排词典获取模块3053,用于记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典;目标倒排集合获取单元3055,用于根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合;目标库文本集合获取单元3057,用于将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。本发明实施例中,如图12所示,所述倒排集合计算单元3051和倒排词典获取模块3053可以在离线环境中运行,而搜索文本获取模块301、重要度参量获取模块303、目标倒排集合获取单元3055和目标库文本集合获取单元3057均运行于在线环境。具体地,本发明实施例所述一种搜索文本与库文件的相关度计算装置与方法实施例均基于相同发明构思。本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行本发明实施例所述的一种搜索文本与库文件的相关度计算方法。具体地,所述指令包括:获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;获取用于进行相关度计算的目标库文本集合;根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。进一步地,所述对所述文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量,包括:对所述搜索文本进行分词处理,得到至少一个分词;基于预设的语料库得到每个分词对应的词权重相关量;利用所述词权重相关及预先构建的词权重参量计算模型,确定所述各个分词对应的词权重参量;根据各个分词及其对应的词权重参量构建目标分词集合。进一步地,所述获取用于进行相关度计算的目标库文本集合,包括:计算库文本集合对于各个模板分词的倒排集合;记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典;根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合;将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。进一步地,所述计算库文本集合对于各个模板分词的倒排集合,包括:获取库文本集合中的每个库文本的域;获取每个所述模板分词相对于所述库文本的词频,所述模板分词相对于所述库文本的词频为所述模板分词相对于所述库文本的各个域中的文本内容的词频的最大值;构建每个所述模板分词的倒排集合,所述模板分词相对于所述倒排集合中任意一个库文本的词频均大于预设阈值。进一步地,所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度,包括:计算搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度;计算搜索文本与所述目标库文本集合中的每个目标库文本的距离;根据搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度以及所述搜索文本与所述目标库文本集合中的每个目标库文本的距离,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度。进一步地,所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度,之后还包括:按照相关度降序的顺序排列目标库文本以得到目标库文本排序表;选取所述目标库文本排序表的前N个目标库文本作为输出文本。进一步地,图13示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置或系统。如图13所示,设备10可以包括一个或多个图中采用102a、102b,……,102n来示出处理器102处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入输出接口IO接口、通用串行总线USB端口可以作为IO接口的端口中的一个端口被包括、网络接口、电源和或相机。本领域普通技术人员可以理解,图13所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图13中所示更多或者更少的组件,或者具有与图13所示不同的配置。应当注意到的是上述一个或多个处理器102和或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10或移动设备中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制例如与接口连接的可变电阻终端路径的选择。存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种搜索文本与库文件的相关度计方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器NetworkInterfaceController,NIC,其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频RadioFrequency,RF模块,其用于通过无线方式与互联网进行通讯。显示器可以例如触摸屏式的液晶显示器LCD,该液晶显示器可使得用户能够与设备10或移动设备的用户界面进行交互。需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种搜索文本与库文件的相关度计算方法,其特征在于,所述方法包括:获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;获取用于进行相关度计算的目标库文本集合;根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。2.根据权利要求1所述的方法,其特征在于,所述对所述文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量,包括:对所述搜索文本进行分词处理,得到至少一个分词;基于预设的语料库得到每个分词对应的词权重相关量;利用所述词权重相关及预先构建的词权重参量计算模型,确定所述各个分词对应的词权重参量;根据各个分词及其对应的词权重参量构建目标分词集合。3.根据权利要求1所述的方法,其特征在于,所述获取用于进行相关度计算的目标库文本集合,包括:计算库文本集合对于各个模板分词的倒排集合;记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典;根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合;将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。4.根据权利要求3所述的方法,其特征在于,所述计算库文本集合对于各个模板分词的倒排集合,包括:获取库文本集合中的每个库文本的域;获取每个所述模板分词相对于所述库文本的词频,所述模板分词相对于所述库文本的词频为所述模板分词相对于所述库文本的各个域中的文本内容的词频的最大值;构建每个所述模板分词的倒排集合,所述模板分词相对于所述倒排集合中任意一个库文本的词频均大于预设阈值。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度,包括:计算搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度;计算搜索文本与所述目标库文本集合中的每个目标库文本的距离;根据搜索文本相对于所述目标库文本集合中的每个目标库文本的重要度以及所述搜索文本与所述目标库文本集合中的每个目标库文本的距离,计算所述搜索文本与所述目标库文本集合中的每个目标库文本的相关度。6.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度,之后还包括:按照相关度降序的顺序排列目标库文本以得到目标库文本排序表;选取所述目标库文本排序表的前N个目标库文本作为输出文本。7.一种搜索文本与库文件的相关度计算装置,其特征在于,所述装置包括:搜索文本获取模块,用于获取搜索文本,并对所述搜索文本进行分词操作以得到目标分词集合,所述目标分词集合中每个目标分词指向所述目标分词对应的词权重参量;重要度参量获取模块,用于根据库文件所在的库文件集合计算所述目标分词集合中每个分词的重要度参量;目标库文本集合获取模块,用于获取用于进行相关度计算的目标库文本集合;相关度计算模块,用于根据所述目标分词集合和所述目标分词集合中每个分词的重要度参量,计算所述搜索文本与所述目标库文本集合中的每个目标库文本之间的相关度。8.根据权利要求7所述的装置,其特征在于,所述目标库文本集合获取模块包括:倒排集合计算单元,用于计算库文本集合对于各个模板分词的倒排集合;倒排词典获取模块,用于记录各个模板分词与其对应的倒排集合的映射关系以得到倒排词典;目标倒排集合获取单元,用于根据所述倒排词典获取所述目标分词集合中每个目标分词对应的目标倒排集合;目标库文本集合获取单元,用于将各个目标分词对应的目标倒排集合的并集作为目标库文本集合。9.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的一种搜索文本与库文件的相关度计算方法。10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1-6任一项所述的一种搜索文本与库文件的相关度计算方法。

百度查询: 腾讯科技(深圳)有限公司 搜索文本与库文件的相关度计算方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。