首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

社交关系挖掘方法、装置、存储介质和计算机设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:腾讯科技(深圳)有限公司

摘要:本申请涉及一种社交关系挖掘方法、装置、存储介质和计算机设备,所述方法包括:获取位置数据中的待识别WiFi设备的连接信息;根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量;根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息;根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。本申请提供的方案可以实现对与待识别WiFi设备对应的连接用户的社交关系的确定,由于大部分的位置数据都会包括WiFi设备的连接信息,通过这种方式可以有效的利用位置数据,提高了位置数据的使用率。

主权项:1.一种社交关系挖掘方法,包括:获取位置数据中的待识别WiFi设备的连接信息;根据所述待识别WiFi设备的连接信息,统计所述待识别WiFi设备的特征量;所述特征量是指用于表征所述待识别WiFi设备特征的连接行为统计量,包括连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数中的至少一项;根据所述待识别WiFi设备的特征量,得到所述待识别WiFi设备的特征向量;将所述待识别WiFi设备的特征向量输入已训练的设备分类模型,得到所述待识别WiFi设备的类别信息,所述已训练的设备分类模型根据预设的样本WiFi设备数据得到;根据所述待识别WiFi设备的类别信息,确定与所述待识别WiFi设备对应的业务场景,根据所述与所述待识别WiFi设备对应的业务场景,确定与所述待识别WiFi设备对应的连接用户的社交关系。

全文数据:社交关系挖掘方法、装置、存储介质和计算机设备技术领域本申请涉及计算机技术领域,特别是涉及一种社交关系挖掘方法、装置、存储介质和计算机设备。背景技术随着计算机技术的发展,出现了社交关系挖掘技术,社交关系挖掘技术是互联网大数据时代的热点研究区域,根据依据的基础数据的不同,可以将社交关系挖掘技术大致分为三类:基于社交网络数据的挖掘、基于用户实体行为数据的挖掘以及基于位置数据的挖掘。其中,基于位置数据的挖掘目前应用最多的是兴趣点数据,即根据用户到访的各类兴趣点信息对用户进行人物画像,从而挖掘出用户的各类偏好。然而,目前在实际应用时,能够与兴趣点进行匹配的位置数据只是小部分数据,位置数据资源未得到有效应用,导致位置数据资源的使用率低,存在浪费位置数据资源的问题。发明内容基于此,有必要针对浪费位置数据资源的技术问题,提供一种社交关系挖掘方法、装置、存储介质和计算机设备。一种社交关系挖掘方法,包括:获取位置数据中的待识别WiFi设备的连接信息;根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量;根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息;根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。一种社交关系挖掘装置,包括:获取模块,用于获取位置数据中的待识别WiFi设备的连接信息;统计模块,用于根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量;识别模块,用于根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息;处理模块,用于根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取位置数据中的待识别WiFi设备的连接信息;根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量;根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息;根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:获取位置数据中的待识别WiFi设备的连接信息;根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量;根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息;根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。上述社交关系挖掘方法、装置、存储介质和计算机设备,根据位置数据中的待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。整个过程,利用位置数据中的待识别WiFi设备的连接信息,实现了对与待识别WiFi设备对应的连接用户的社交关系的确定,由于大部分的位置数据都会包括WiFi设备的连接信息,通过这种方式可以有效的利用位置数据,提高了位置数据的使用率。附图说明图1为一个实施例中社交关系挖掘方法的应用环境图;图2为一个实施例中社交关系挖掘方法的流程示意图;图3为一个实施例中图2中步骤S206的子流程示意图;图4为一个实施例中图3中步骤S308的子流程示意图;图5为另一个实施例中社交关系挖掘方法的流程示意图;图6为再一个实施例中社交关系挖掘方法的流程示意图;图7为一个实施例中社交关系挖掘装置的结构框图;图8为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中社交关系挖掘方法的应用环境图。参照图1,该社交关系挖掘方法应用于社交关系挖掘系统。该社交关系挖掘系统包括终端110和服务器120。终端110和服务器120通过网络连接。其中,服务器120从终端110获取位置数据中的待识别WiFi设备的连接信息,根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。终端110是指连接到待识别WiFi设备的终端,具体可以是移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种,当使用终端110的用户允许服务器获取位置数据时,服务器会获取到位置数据,其中包括待识别WiFi设备的连接信息。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图2所示,在一个实施例中,提供了一种社交关系挖掘方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该社交关系挖掘方法具体包括如下步骤S202至步骤S208。S202,获取位置数据中的待识别WiFi设备的连接信息。其中,位置数据是指通过分析和挖掘用户定位服务日志,获得的去隐私化后的用户位置信息,用户定位服务日志是指在用户允许服务器获取位置信息的情况下,服务器获取到的用户定位信息集合,比如,位置数据可以是一条用户位置信息,其中包括待识别WiFi设备的连接信息。待识别WiFi设备是指尚未确定类别的WiFi设备,待识别WiFi设备的连接信息是指与待识别WiFi设备的连接行为对应的信息,连接行为是指连接待识别WiFi设备。比如,连接信息具体可以是连接时间戳以及连接用户的设备标识。具体地,服务器获取位置数据,根据位置数据中各WiFi设备的连接信息进行数据清洗,得到位置数据中的待识别WiFi设备的连接信息。连接信息中包括有WiFi设备的位置信息,位置信息具体可以是经纬度信息,服务器可根据经纬度信息进行数据清洗。根据经纬度信息进行数据清洗的方式可以为当同一WiFi设备的多个经纬度信息的差距大于阈值时,可以认为该WiFi设备的位置无法确定,从而无法对该WiFi设备进行识别。比如,当根据WiFi设备的第一经纬度信息为经度:116.40、纬度:39.90,根据WiFi设备的第二经纬度信息为经度:121.47、纬度:31.23时,可认为该WiFi设备的经纬度信息的差距较大,该WiFi设备的位置无法确定,无法对该WiFi设备进行识别。S204,根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量。其中,连接信息是指与待识别WiFi设备的连接行为对应的信息,连接行为是指连接待识别WiFi设备。比如,连接信息具体可以是连接时间戳以及连接用户的设备标识。特征量是指可以用于表征待识别WiFi设备特征的连接行为统计量。比如,特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。其中,连接终端设备是指在预设的统计时间段内与待识别WiFi设备建立过连接关系的终端设备,预设的统计时间段可按照需要自行设置,比如,预设的统计时间段具体可以为一个月。预设时段可按照需要自行设置,比如,预设时段具体可以为将一天的时间分段为白天工作时间和晚上休闲时间,进一步的,白天工作时间可以为早上八点至晚上八点,休闲时间可以为晚上八点至第二天早上八点。连接终端设备波动数是指可以用于表征在预设的统计时间段内WiFi设备连接变化情况的统计数据,比如,若统计时间段为一个月,则可以以天为单位,对一个月内每天WiFi设备连接情况进行统计分析,包括计算其在一个月内的连接终端设备数的平均方差、变异系数等。变异系数是统计学中的无量纲量,又称离散系数,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。在一个实施例中,根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量包括:根据待识别WiFi设备的连接信息中的连接时间戳以及连接用户的设备标识,统计待识别WiFi设备的特征量。其中,连接时间戳是指连接终端设备与待识别WiFi设备建立连接的时间点,连接终端设备是指在预设的统计时间段内与待识别WiFi设备建立过连接关系的终端设备,预设的统计时间段可按照需要自行设置。连接用户是指在预设的统计时间段内使用终端设备与待识别WiFi设备建立过连接关系的用户,即是指在预设的统计时间段内使用终端设备连接待识别WiFi设备,通过待识别WiFi设备提供的WiFi热点上网的用户。设备标识是指在预设的统计时间段内连接用户的终端设备的标识,比如,设备标识具体可以是设备IDIdentitydocument,身份标识号。其中,特征量是指可以用于表征待识别WiFi设备特征的连接行为统计量。比如,特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。连接终端设备总数可以用于有效区分不同规模的业务场景,比如,对于大型公司部署的公司内部WiFi设备,其连接人数往往都会是几十人、几百人甚至上千人,而对于家居场景,通常其连接终端设备总数较少。各预设时间段内连接终端设备数可以用于界定WiFi设备在不同时间段内的连接行为,从而对不同连接用户活动的业务场景进行区分。比如,对于大部分实体商业公司,其白天工作时间的连接终端设备数会显著大于晚上,而对于一些家居场景或休闲娱乐类经营场景,其晚上休闲时间的连接终端设备数会多余白天工作时间。具体的,服务器会根据连接用户的设备标识统计连接终端设备总数,根据连接用户的设备标识以及连接时间戳统计各预设时段内连接终端设备数,根据预设的统计时间段、连接用户的设备标识以及连接时间戳统计连接终端设备波动数,连接终端设备波动数包括预设的统计时间段内的连接终端设备数的平均方差、变异系数等。S206,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息。其中,类别信息是指待识别WiFi设备的业务场景类别,与待识别WiFi设备的业务场景相对应。比如,类别信息具体可以是办公用WiFi、家居用WiFi等。在一个实施例中,如图3所示,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息包括如下步骤S302至步骤S312。步骤S302,根据待识别WiFi设备的特征量,得到待识别WiFi设备的特征向量;步骤S312,将待识别WiFi设备的特征向量输入已训练的设备分类模型,得到待识别WiFi设备的类别信息,已训练的设备分类模型根据预设的样本WiFi设备数据得到。其中,特征向量是指由特征量构成的向量,特征向量中的每个分量都为待识别WiFi设备的特征量中的各统计值。设备分类模型是指用于识别WiFi设备的类别的模型,将待识别WiFi设备的特征向量输入已训练的设备分类模型,就可以得到待识别WiFi设备的类别信息。类别信息是指待识别WiFi设备的业务场景类别,与待识别WiFi设备的业务场景相对应。比如,类别信息具体可以是办公用WiFi、家居用WiFi等。预设的样本WiFi设备数据是指预先采集的、作为样本WiFi设备的各WiFi设备的连接信息,比如,样本WiFi设备数据具体可以是作为样本WiFi设备的各WiFi设备的连接信息,作为样本WiFi设备的各WiFi设备的连接信息包括连接时间戳、连接用户的设备标识、各WiFi设备的设备标识、各WiFi设备的经纬度信息等。具体的,服务器将待识别WiFi设备的特征量中的各统计值作为特征向量的分量,即可得到待识别WiFi设备的特征向量。将待识别WiFi设备的特征向量输入已训练的设备分类模型中,即可得到待识别WiFi设备的类别信息。在一个实施例中,在得到待识别WiFi设备的类别信息后,服务器会根据待识别WiFi设备的特征向量和类别信息更新样本WiFi设备数据,将待识别WiFi设备的特征向量和类别信息也作为样本WiFi设备数据,迭代训练设备分类模型,以不断改进该设备分类模型。在一个实施例中,如图3所示,将待识别WiFi设备的特征向量输入已训练的设备分类模型,得到待识别WiFi设备的类别信息前,还包括步骤S304至步骤S310。步骤S304,根据预设的样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量;步骤S306,根据各WiFi设备的特征量,得到各WiFi设备的特征向量;步骤S308,根据各WiFi设备的特征向量进行无监督学习,得到各WiFi设备的目标类别信息;步骤S310,根据各WiFi设备的目标类别信息,得到设备分类模型。其中,预设的样本WiFi设备数据是指预先采集的、作为样本WiFi设备的各WiFi设备的连接信息,比如,样本WiFi设备数据具体可以是作为样本WiFi设备的各WiFi设备的连接信息,作为样本WiFi设备的各WiFi设备的连接信息包括连接时间戳、连接用户的设备标识、各WiFi设备的设备标识、各WiFi设备的经纬度信息等。与样本WiFi设备数据对应的各WiFi设备是指作为样本WiFi设备的各WiFi设备。各WiFi设备的特征量是指可以用于表征各WiFi设备特征的连接行为统计量。比如,各WiFi设备的特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。各WiFi设备的特征向量是指由各WiFi设备的特征量构成的向量,各WiFi设备的特征向量中的每个分量都为各WiFi设备的特征量中的各统计值。其中,无监督学习是指根据类别未知没有被标记的训练样本解决模式识别中的各种问题。在本申请中,各WiFi设备的特征向量即类别未知没有被标记的训练样本。各WiFi设备的目标类别信息是指各WiFi设备的业务场景类别,与各WiFi设备的业务场景相对应。比如,目标类别信息具体可以是办公用WiFi、家居用WiFi等。在一个实施例中,如图4所示,根据各WiFi设备的特征向量进行无监督学习,得到各WiFi设备的目标类别信息包括步骤S402至步骤S408。步骤S402,对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息;步骤S404,随机选取多个WiFi设备的初始类别信息,根据被选取的WiFi设备的初始类别信息以及样本WiFi设备数据,验证初始分类识别模型;步骤S406,当验证通过时,根据各WiFi设备的初始类别信息,得到各WiFi设备的目标类别信息;步骤S408,当验证不通过时,返回根据样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量的步骤。其中,初始分类识别模型是指对各WiFi设备的特征向量进行无监督学习后得到的识别模型,各WiFi设备的初始类别信息是指各WiFi设备的特征向量进行无监督学习后得到的各WiFi设备的类别信息。各WiFi设备的目标类别信息是指经过验证过后的各WiFi设备的类别信息。具体的,在对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息后,服务器会随机选取多个WiFi设备的初始类别信息对初始识别模型进行数据抽样验证,数据抽样验证即对初始类别信息进行验证,检验初始类别信息是否符合要求,初始类别信息符合要求是指初始类别信息对应的业务场景与WiFi设备的实际应用场景相同。比如,当初始类别信息为办公用WiFi且WiFi设备的实际应用场景为办公场景时,可认为初始类别信息符合要求。当初始类别信息为家居用WiFi且WiFi设备的实际应用场景为家居场景时,也可认为初始类别信息符合要求。具体的,当验证通过时,服务器会将各WiFi设备的初始类别信息,作为各WiFi设备的目标类别信息。当验证不通过时,服务器会返回根据样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量的步骤,通过重新统计各WiFi设备的特征量、选用其他分类识别模型等方式,重新对样本WiFi数据进行学习,再次得到学习后的分类识别模型,并对该分类识别模型进行验证,直到验证通过,得到各WiFi设备的目标类别信息为止。在一个实施例中,随机选取多个WiFi设备的初始类别信息,根据被选取的WiFi设备的初始类别信息以及样本WiFi设备数据,验证初始分类识别模型包括:根据被选取的WiFi设备的初始类别信息,确定被选取的WiFi设备对应的第一业务场景;从样本WiFi设备数据中获取被选取的WiFi设备的连接信息,根据连接信息确定第二业务场景;当第一业务场景与第二业务场景相同时,验证通过。其中,第一业务场景和第二业务场景是指WiFi设备的应用场景。比如,第一业务场景可以为办公场景、家居场景等。连接信息中包括WiFi设备的位置信息,具体的位置信息可以是经纬度信息,根据位置信息可以确定WiFi设备的位置,从而可以根据WiFi设备的位置确定第二业务场景。比如,当WiFi设备的位置为市中心的写字楼时,可认为第二业务场景为办公场景。当WiFi设备的位置为住宅小区时,可认为第二业务场景为家居场景。在一个实施例中,以Kmeans聚类算法对无监督学习过程进行描述,其步骤包括:对各WiFi设备的特征向量进行归一化处理,其计算方式为:x′i=xi-xminxmax-xi,其中xmin表示该列特征分量中的最小值,xmax表示该列特征分量中的最大值,xi表示该列特征分量的各特征分量,x′i表示归一化后的各特征分量;指定聚类个数K,随机选取K个聚类质心点,c1,c2,…ck∈Rn;对于每一条WiFi特征数据x′i,计算其与质心间的距离,并选择距离最近的类为其所属类ci,对于每一个类jj=1,2,…k,计算其所属类新的质心,新的质心为所属类中全部样本特征分量的平均值;根据预设的迭代次数阈值以及每次迭代后得到的新的质心进行迭代计算,在迭代次数达到迭代次数阈值时,得到初始分类识别模型和各WiFi设备的初始类别信息。其中,预设的迭代次数阈值可按照需要自行设置。在一个实施例中,根据各WiFi设备的目标类别信息,得到设备分类模型包括:根据各WiFi设备的目标类别信息进行有监督学习,得到设备分类模型。其中,有监督学习是指用已知某种或某些特性的样本作为训练集,以建立一个数学模型如模式识别中的判别模型,人工神经网络法中的权重模型等,再用已建立的模型来预测未知样本的方法。在本申请中,就是用已知目标类别信息的各WiFi设备的特征向量作为训练集,以建立设备分类模型,从而可以通过设备分类模型来预测待识别WiFi设备的类别信息。S208,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。其中,社交关系是指与待识别WiFi设备对应的连接用户之间的关联关系。比如,社交关系具体可以为同事、朋友、家人等。具体的,服务器可根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的业务场景,进而根据业务场景确定与待识别WiFi设备对应的连接用户的社交关系。比如,当类别信息为办公用WiFi时,可确定对应的业务场景为办公场景,则对应的连接用户的社交关系可能为同事。当类别信息为休闲用WiFi时,可确定对应的业务场景为休闲场景,则对应的连接用户的社交关系可能为朋友。当类别信息为家居用WiFi时,可确定对应的业务场景为家居场景,则对应的连接用户的社交关系可能为家人。上述社交关系挖掘方法,根据位置数据中的待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。整个过程,利用位置数据中的待识别WiFi设备的连接信息,实现了对与待识别WiFi设备对应的连接用户的社交关系的确定,由于大部分的位置数据都会包括WiFi设备的连接信息,通过这种方式可以有效的利用位置数据,提高了位置数据的使用率。在一个实施例中,该社交关系挖掘方法还包括:根据与待识别WiFi设备对应的连接用户的社交关系,对连接用户进行个性化推荐。其中,个性化推荐是指根据连接用户的社交关系,进行对应的业务内容推荐。业务内容推荐包括场所推荐、活动推荐等。场所推荐是指基于连接用户的社交关系,推荐适合连接用户共同活动的场所。活动推荐是指基于连接用户的社交关系,推荐适合连接用户共同参与的活动。比如,共同活动的场所可以为饭店等,共同参与的活动可以为团建活动等。在一个实施例中,图5为另一个实施例中社交关系挖掘方法的流程示意图。服务器首先从位置大数据原始日志中获取去隐私化的、预设的样本WiFi设备数据,对样本WiFi设备数据进行标准化处理,根据标准化处理后的样本WiFi设备数据进行特征热图可视化分析,统计与样本WiFi设备数据对应的各WiFi设备的特征量,根据各WiFi设备的特征量,构建特征工程,得到各WiFi设备的特征向量。其中,去隐私化是指过滤样本WiFi设备数据中的连接用户的个人信息,特征热图可视化分析是指将样本WiFi设备数据进行关联分析,并做出完整的分析图表,统计得到与样本WiFi设备数据对应的各WiFi设备的特征量。然后根据各WiFi设备的特征向量进行模型训练,即对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息,根据初始分类识别模型和各WiFi设备的初始类别信息进行模型评估校验,当模型通过校验,即符合业务预期时,得到各WiFi设备的目标类别信息。当模型未通过校验,即不符合业务预期时,可进行参数调整,返回统计与样本WiFi设备数据对应的各WiFi设备的特征量,根据各WiFi设备的特征量进行可视化分析的步骤,也可对样本WiFi设备数据进行调整。然后根据目标类别信息进行模型部署,即根据目标类别信息进行有监督学习,得到设备分类模型。在得到设备分类模型之后,进行位置场景判别,即根据设备分类模型确定待识别WiFi设备的类别信息。最后进行监控调试,当识别完成时,将待识别WiFi设备的特征向量和类别信息作为增量更新样本WiFi设备数据。在一个实施例中,如图6所示,通过一个最具体实施例来说明本申请中的社交关系挖掘方法。该方法包括如下步骤S602至步骤S626。步骤S602,获取位置数据中的待识别WiFi设备的连接信息。步骤S604,根据待识别WiFi设备的连接信息中的连接时间戳以及连接用户的设备标识,统计待识别WiFi设备的特征量。步骤S606,根据待识别WiFi设备的特征量,得到待识别WiFi设备的特征向量。步骤S608,根据预设的样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量。步骤S610,根据各WiFi设备的特征量,得到各WiFi设备的特征向量。步骤S612,对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息。步骤S614,随机选取多个WiFi设备的初始类别信息,根据被选取的WiFi设备的初始类别信息以及样本WiFi设备数据,验证初始分类识别模型。步骤S616,当验证通过时,根据各WiFi设备的初始类别信息,得到各WiFi设备的目标类别信息。步骤S618,当验证不通过时,返回根据样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量的步骤。步骤S620,根据各WiFi设备的目标类别信息进行有监督学习,得到设备分类模型。步骤S622,将待识别WiFi设备的特征向量输入已训练的设备分类模型,得到待识别WiFi设备的类别信息。步骤S624,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。步骤S626,根据与待识别WiFi设备对应的连接用户的社交关系,对连接用户进行个性化推荐。图6为一个实施例中社交关系挖掘方法的流程示意图。应该理解的是,虽然图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。如图7所示,在一个实施例中,提供了一种社交关系挖掘装置,该装置包括获取模块702、统计模块704、识别模块706、处理模块708。获取模块702,用于获取位置数据中的待识别WiFi设备的连接信息。其中,位置数据是指通过分析和挖掘用户定位服务日志,获得的去隐私化后的用户位置信息,用户定位服务日志是指在用户允许服务器获取位置信息的情况下,服务器获取到的用户定位信息集合,比如,位置数据可以是一条用户位置信息,其中包括待识别WiFi设备的连接信息。待识别WiFi设备是指尚未确定类别的WiFi设备,待识别WiFi设备的连接信息是指与待识别WiFi设备的连接行为对应的信息,连接行为是指连接待识别WiFi设备。比如,连接信息具体可以是连接时间戳以及连接用户的设备标识。具体地,获取模块获取位置数据,根据位置数据中各WiFi设备的连接信息进行数据清洗,得到位置数据中的待识别WiFi设备的连接信息。连接信息中包括有WiFi设备的位置信息,位置信息具体可以是经纬度信息,服务器可根据经纬度信息进行数据清洗。根据经纬度信息进行数据清洗的方式可以为当同一WiFi设备的多个经纬度信息的差距大于阈值时,可以认为该WiFi设备的位置无法确定,从而无法对该WiFi设备进行识别。比如,当根据WiFi设备的第一经纬度信息为经度:116.40、纬度:39.90,根据WiFi设备的第二经纬度信息为经度:121.47、纬度:31.23时,可认为该WiFi设备的经纬度信息的差距较大,该WiFi设备的位置无法确定,无法对该WiFi设备进行识别。统计模块704,用于根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量。其中,连接信息是指与待识别WiFi设备的连接行为对应的信息,连接行为是指连接待识别WiFi设备。比如,连接信息具体可以是连接时间戳以及连接用户的设备标识。特征量是指可以用于表征待识别WiFi设备特征的连接行为统计量。比如,特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。其中,连接终端设备是指在预设的统计时间段内与待识别WiFi设备建立过连接关系的终端设备,预设的统计时间段可按照需要自行设置,比如,预设的统计时间段具体可以为一个月。预设时段可按照需要自行设置,比如,预设时段具体可以为将一天的时间分段为白天工作时间和晚上休闲时间,进一步的,白天工作时间可以为早上八点至晚上八点,休闲时间可以为晚上八点至第二天早上八点。连接终端设备波动数是指可以用于表征在预设的统计时间段内WiFi设备连接变化情况的统计数据,比如,若统计时间段为一个月,则可以以天为单位,对一个月内每天WiFi设备连接情况进行统计分析,包括计算其在一个月内的连接终端设备数的平均方差、变异系数等。变异系数是统计学中的无量纲量,又称离散系数,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。在一个实施例中,统计模块还用于根据待识别WiFi设备的连接信息中的连接时间戳以及连接用户的设备标识,统计待识别WiFi设备的特征量。其中,连接时间戳是指连接终端设备与待识别WiFi设备建立连接的时间点,连接终端设备是指在预设的统计时间段内与待识别WiFi设备建立过连接关系的终端设备,预设的统计时间段可按照需要自行设置。连接用户是指在预设的统计时间段内使用终端设备与待识别WiFi设备建立过连接关系的用户,即是指在预设的统计时间段内使用终端设备连接待识别WiFi设备,通过待识别WiFi设备提供的WiFi热点上网的用户。设备标识是指在预设的统计时间段内连接用户的终端设备的标识,比如,设备标识具体可以是设备ID。其中,特征量是指可以用于表征待识别WiFi设备特征的连接行为统计量。比如,特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。连接终端设备总数可以用于有效区分不同规模的业务场景,比如,对于大型公司部署的公司内部WiFi设备,其连接人数往往都会是几十人、几百人甚至上千人,而对于家居场景,通常其连接终端设备总数较少。各预设时间段内连接终端设备数可以用于界定WiFi设备在不同时间段内的连接行为,从而对不同连接用户活动的业务场景进行区分。比如,对于大部分实体商业公司,其白天工作时间的连接终端设备数会显著大于晚上,而对于一些家居场景或休闲娱乐类经营场景,其晚上休闲时间的连接终端设备数会多余白天工作时间。具体的,统计模块会根据连接用户的设备标识统计连接终端设备总数,根据连接用户的设备标识以及连接时间戳统计各预设时段内连接终端设备数,根据预设的统计时间段、连接用户的设备标识以及连接时间戳统计连接终端设备波动数,连接终端设备波动数包括预设的统计时间段内的连接终端设备数的平均方差、变异系数等。识别模块706,用于根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息。其中,类别信息是指待识别WiFi设备的业务场景类别,与待识别WiFi设备的业务场景相对应。比如,类别信息具体可以是办公用WiFi、家居用WiFi等。在一个实施例中,识别模块还用于根据待识别WiFi设备的特征量,得到待识别WiFi设备的特征向量,根据预设的样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量,根据各WiFi设备的特征量,得到各WiFi设备的特征向量,根据各WiFi设备的特征向量进行无监督学习,得到各WiFi设备的目标类别信息,根据各WiFi设备的目标类别信息,得到设备分类模型,将待识别WiFi设备的特征向量输入已训练的设备分类模型,得到待识别WiFi设备的类别信息,已训练的设备分类模型根据预设的样本WiFi设备数据得到。其中,预设的样本WiFi设备数据是指预先采集的、作为样本WiFi设备的各WiFi设备的连接信息,比如,样本WiFi设备数据具体可以是作为样本WiFi设备的各WiFi设备的连接信息,作为样本WiFi设备的各WiFi设备的连接信息包括连接时间戳、连接用户的设备标识、各WiFi设备的设备标识、各WiFi设备的经纬度信息等。与样本WiFi设备数据对应的各WiFi设备是指作为样本WiFi设备的各WiFi设备。各WiFi设备的特征量是指可以用于表征各WiFi设备特征的连接行为统计量。比如,各WiFi设备的特征量具体可以是连接终端设备总数、各预设时段内连接终端设备数、连接终端设备波动数等。各WiFi设备的特征向量是指由各WiFi设备的特征量构成的向量,各WiFi设备的特征向量中的每个分量都为各WiFi设备的特征量中的各统计值。其中,无监督学习是指根据类别未知没有被标记的训练样本解决模式识别中的各种问题。在本申请中,各WiFi设备的特征向量即类别未知没有被标记的训练样本。各WiFi设备的目标类别信息是指各WiFi设备的业务场景类别,与各WiFi设备的业务场景相对应。比如,目标类别信息具体可以是办公用WiFi、家居用WiFi等。在一个实施例中,识别模块还用于对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息,随机选取多个WiFi设备的初始类别信息,根据被选取的WiFi设备的初始类别信息以及样本WiFi设备数据,验证初始分类识别模型,当验证通过时,根据各WiFi设备的初始类别信息,得到各WiFi设备的目标类别信息,当验证不通过时,返回根据样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量的步骤。其中,初始分类识别模型是指对各WiFi设备的特征向量进行无监督学习后得到的识别模型,各WiFi设备的初始类别信息是指各WiFi设备的特征向量进行无监督学习后得到的各WiFi设备的类别信息。各WiFi设备的目标类别信息是指经过验证过后的各WiFi设备的类别信息。具体的,在对各WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各WiFi设备的初始类别信息后,识别模块会随机选取多个WiFi设备的初始类别信息对初始识别模型进行数据抽样验证,数据抽样验证即对初始类别信息进行验证,检验初始类别信息是否符合要求,初始类别信息符合要求是指初始类别信息对应的业务场景与WiFi设备的实际应用场景相同。比如,当初始类别信息为办公用WiFi且WiFi设备的实际应用场景为办公场景时,可认为初始类别信息符合要求。当初始类别信息为家居用WiFi且WiFi设备的实际应用场景为家居场景时,也可认为初始类别信息符合要求。具体的,当验证通过时,识别模块会将各WiFi设备的初始类别信息,作为各WiFi设备的目标类别信息。当验证不通过时,识别模块会返回根据样本WiFi设备数据,统计与样本WiFi设备数据对应的各WiFi设备的特征量的步骤,通过重新统计各WiFi设备的特征量、选用其他分类识别模型等方式,重新对样本WiFi数据进行学习,再次得到学习后的分类识别模型,并对该分类识别模型进行验证,直到验证通过,得到各WiFi设备的目标类别信息为止。在一个实施例中,识别模块还用于根据被选取的WiFi设备的初始类别信息,确定被选取的WiFi设备对应的第一业务场景,从样本WiFi设备数据中获取被选取的WiFi设备的连接信息,根据连接信息确定第二业务场景,当第一业务场景与第二业务场景相同时,验证通过。其中,第一业务场景和第二业务场景是指WiFi设备的应用场景。比如,第一业务场景可以为办公场景、家居场景等。连接信息中包括WiFi设备的位置信息,具体的位置信息可以是经纬度信息,根据位置信息可以确定WiFi设备的位置,从而可以根据WiFi设备的位置确定第二业务场景。比如,当WiFi设备的位置为市中心的写字楼时,可认为第二业务场景为办公场景。当WiFi设备的位置为住宅小区时,可认为第二业务场景为家居场景。在一个实施例中,识别模块还用于根据各WiFi设备的目标类别信息进行有监督学习,得到设备分类模型。其中,有监督学习是指用已知某种或某些特性的样本作为训练集,以建立一个数学模型如模式识别中的判别模型,人工神经网络法中的权重模型等,再用已建立的模型来预测未知样本的方法。在本申请中,就是用已知目标类别信息的各WiFi设备的特征向量作为训练集,以建立设备分类模型,从而可以通过设备分类模型来预测待识别WiFi设备的类别信息。在一个实施例中,识别模块还用于在一个实施例中,在得到待识别WiFi设备的类别信息后,根据待识别WiFi设备的特征向量和类别信息更新样本WiFi设备数据,将待识别WiFi设备的特征向量和类别信息也作为样本WiFi设备数据,迭代训练设备分类模型,以不断改进该设备分类模型。处理模块708,用于根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。其中,社交关系是指与待识别WiFi设备对应的连接用户之间的关联关系。比如,社交关系具体可以为同事、朋友、家人等。具体的,处理模块可根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的业务场景,进而根据业务场景确定与待识别WiFi设备对应的连接用户的社交关系。比如,当类别信息为办公用WiFi时,可确定对应的业务场景为办公场景,则对应的连接用户的社交关系可能为同事。当类别信息为休闲用WiFi时,可确定对应的业务场景为休闲场景,则对应的连接用户的社交关系可能为朋友。当类别信息为家居用WiFi时,可确定对应的业务场景为家居场景,则对应的连接用户的社交关系可能为家人。上述社交关系挖掘装置,根据位置数据中的待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量,根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息,根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。整个过程,利用位置数据中的待识别WiFi设备的连接信息,实现了对与待识别WiFi设备对应的连接用户的社交关系的确定,由于大部分的位置数据都会包括WiFi设备的连接信息,通过这种方式可以有效的利用位置数据,提高了位置数据的使用率。在一个实施例中,处理模块还用于根据与待识别WiFi设备对应的连接用户的社交关系,对连接用户进行个性化推荐。其中,个性化推荐是指根据连接用户的社交关系,进行对应的业务内容推荐。业务内容推荐包括场所推荐、活动推荐等。场所推荐是指基于连接用户的社交关系,推荐适合连接用户共同活动的场所。活动推荐是指基于连接用户的社交关系,推荐适合连接用户共同参与的活动。比如,共同活动的场所可以为饭店等,共同参与的活动可以为团建活动等。图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图8所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现社交关系挖掘方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行社交关系挖掘方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,本申请提供的社交关系挖掘装置可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该社交关系挖掘装置的各个程序模块,比如,图7所示的获取模块、统计模块、识别模块和处理模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的社交关系挖掘方法中的步骤。例如,图8所示的计算机设备可以通过如图7所示的社交关系挖掘装置中的获取模块执行获取位置数据中的待识别WiFi设备的连接信息。计算机设备可通过统计模块执行根据待识别WiFi设备的连接信息,统计待识别WiFi设备的特征量。计算机设备可通过识别模块执行根据待识别WiFi设备的特征量,得到待识别WiFi设备的类别信息。计算机设备可通过处理模块执行根据待识别WiFi设备的类别信息,确定与待识别WiFi设备对应的连接用户的社交关系。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述社交关系挖掘方法的步骤。此处社交关系挖掘方法的步骤可以是上述各个实施例的社交关系挖掘方法中的步骤。在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述社交关系挖掘方法的步骤。此处社交关系挖掘方法的步骤可以是上述各个实施例的社交关系挖掘方法中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

权利要求:1.一种社交关系挖掘方法,包括:获取位置数据中的待识别WiFi设备的连接信息;根据所述待识别WiFi设备的连接信息,统计所述待识别WiFi设备的特征量;根据所述待识别WiFi设备的特征量,得到所述待识别WiFi设备的类别信息;根据所述待识别WiFi设备的类别信息,确定与所述待识别WiFi设备对应的连接用户的社交关系。2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别WiFi设备的连接信息,统计所述待识别WiFi设备的特征量包括:根据所述待识别WiFi设备的连接信息中的连接时间戳以及连接用户的设备标识,统计所述待识别WiFi设备的特征量。3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别WiFi设备的特征量,得到所述待识别WiFi设备的类别信息包括:根据所述待识别WiFi设备的特征量,得到所述待识别WiFi设备的特征向量;将所述待识别WiFi设备的特征向量输入已训练的设备分类模型,得到所述待识别WiFi设备的类别信息,所述已训练的设备分类模型根据预设的样本WiFi设备数据得到。4.根据权利要求3所述的方法,其特征在于,所述将所述待识别WiFi设备的特征向量输入已训练的设备分类模型,得到所述待识别WiFi设备的类别信息前,还包括:根据预设的样本WiFi设备数据,统计与所述样本WiFi设备数据对应的各WiFi设备的特征量;根据各所述WiFi设备的特征量,得到各所述WiFi设备的特征向量;根据各所述WiFi设备的特征向量进行无监督学习,得到各所述WiFi设备的目标类别信息;根据各所述WiFi设备的目标类别信息,得到设备分类模型。5.根据权利要求4所述的方法,其特征在于,所述根据各所述WiFi设备的特征向量进行无监督学习,得到各所述WiFi设备的目标类别信息包括:对各所述WiFi设备的特征向量进行无监督学习,得到初始分类识别模型和各所述WiFi设备的初始类别信息;随机选取多个WiFi设备的初始类别信息,根据被选取的WiFi设备的初始类别信息以及所述样本WiFi设备数据,验证所述初始分类识别模型;当验证通过时,根据各所述WiFi设备的初始类别信息,得到各所述WiFi设备的目标类别信息;当验证不通过时,返回根据所述样本WiFi设备数据,统计与所述样本WiFi设备数据对应的各WiFi设备的特征量的步骤。6.根据权利要求4所述的方法,其特征在于,所述根据各所述WiFi设备的目标类别信息,得到设备分类模型包括:根据各所述WiFi设备的目标类别信息进行有监督学习,得到设备分类模型。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据与所述待识别WiFi设备对应的连接用户的社交关系,对所述连接用户进行个性化推荐。8.一种社交关系挖掘装置,其特征在于,所述装置包括:获取模块,用于获取位置数据中的待识别WiFi设备的连接信息;统计模块,用于根据所述待识别WiFi设备的连接信息,统计所述待识别WiFi设备的特征量;识别模块,用于根据所述待识别WiFi设备的特征量,得到所述待识别WiFi设备的类别信息;处理模块,用于根据所述待识别WiFi设备的类别信息,确定与所述待识别WiFi设备对应的连接用户的社交关系。9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

百度查询: 腾讯科技(深圳)有限公司 社交关系挖掘方法、装置、存储介质和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术