买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖南大学
摘要:本发明公开了一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法,将所有活动分为室内室外两类,并考虑环境数据对以上两种活动的不同影响方式,结合出席成本、季节性影响等因素,构建相应的特征向量,然后结合机器学习相关算法进行活动人数的预测。本专利以活动举办者的角度,研究活动出席的可能性,这样可以提高举办活动的人气、效果等,对举办组织的维持也有很大帮助,同时也可以帮助组织者吸引更多的用户,扩大自身的影响力。
主权项:1.一种基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,包括如下步骤:步骤一:收集客户参加活动的历史数据;步骤二:将活动分为户外活动和室内活动;确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响;步骤三:对于室外活动,将天气数据按照出现频率进行量化,天气数据包括晴、雨、阴、多云、雪,确定天气数据对活动出席率的影响;步骤四:对于室内活动,根据温度和湿度计算天气舒适度指数,确定天气舒适度指数对活动出席率的影响;对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比;衡量用户对活动的兴趣度与活动距离对出席概率的影响程度;步骤五:确定客户的活动出席成本,所述活动出席成本包括时间成本和经济成本;步骤六:确定客户参加活动的季节性偏好;步骤七:综合步骤一到步骤六,构建每个客户参加活动的概率模型,汇总得到活动最终出席率的预测模型;所述步骤七中构建每个客户参加活动的概率模型步骤如下:7.1标注点的搭建:根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量,即标注点的搭建,搭建方法如下:若某一个活动为e0;参加活动e0的用户集为Ue0,人数为N个,分别设为u1,u2,u3,u4……uN;用户i与活动之间的距离为Dui,e0,i∈1,N,u为距离标识,ui表示用户i的距离标识;那么活动e0的距离变量De0为:De0=Dui,e01;用户i的兴趣度为用户i参加的活动中,和e0同类别的活动与活动总数之比Ii;那么整个活动的参加用户兴趣度为:Ie0=Ii2;则活动E的时间成本为:Time_Coste0、经济成本为Eco_Coste0、季节性偏好为:Import_seasone0;然后分为以下两种情况:1对于室内活动:天气因素是通过改变权重来影响活动出席的,因此构建标注点形式的特征向量:label,y1*Ie0,y2*De0,y3*Time_Coste0,y4*Eco_Coste0,y5*Import_seasone0;y1,y2,y3,y4,y5为各因素的权重,y1,y2,y3,y4,y5的比值为:β:lg|DI-64.5|+10:0.5:0.5:0.5;其中,β表示在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比,DI表示舒适度指数;2对于室外活动:天气因素是直接影响活动出席的,因此构建标注点形式的特征向量:label,y1*Ie0,y2*De0,y3*Time_Coste0,y4*Eco_Coste0,y5*Import_seasone0,y6*Weathere0;y1,y2,y3,y4,y5,y6为各因素的权重,具体比值为:β∶1∶0.5∶0.5∶0.5∶2;其中标注点中的label值为1即为该用户参加了该活动,0即为该用户没有参加该活动;7.2训练样本的选取:对于属于同一类的活动建立正样本集P和负样本集Neg:首先提取两个阈值T1,T2来协助选择负样本集Neg,T1的计算方法为:T1=minI1,I2,I3,…IN3即某同一类活动T1值为参加这类活动的用户的兴趣度的最小值;Ii代表第i个用户参加e0活动的用户的兴趣度;T2的计算方法为:T2=maxDu1,e0,Du2,e0,Du3,e0...DuN,e04即某类活动的T2值为参加这类活动的用户与活动的距离最大值;对于负样本集Neg的构造,首先从没有参加活动E的所有用户中确定负样本候选集,确定负样本候选集U候选的方法为: 负样本集Neg=SampleU候选6;Train_dataset=正样本集P+负样本集Neg7公式5中u表示未参加活动e0的用户,表示参加活动e0的用户集合;选择兴趣度大于阈值T1和或距离小于阈值T2的未参加活动的用户作为候选的负样本用户集,通过随机抽样的方法抽取和正样本P数量相等的负样本用户,将这些用户按照步骤7.1建立特征向量,其中标注点中的label值为0;正样本集P和负样本集Neg包含的样本相同;将正负样本集整合至一起得到训练样本集Train_dataset;7.3分类器的建立:训练样本集构建完成后,采用决策树中的gbdt决策树分类算法结合训练样本构建分类器模型,公式如下:Modelpredict=fgdbtTrain_dataset8fgdbt指gdbt决策树算法函数,Modelpredict为算法输出的模型;7.4测试样本的选取:模型训练完成后,进行预测,选取测试样本,若有待预测人数的未来活动e′,选择测试样本testuserset的方法如下: Ce′是指和e′属于同类的所有活动的集合;u∈Ce′是指参加过与活动e′同类活动的用户u,ec代表和活动e′同类别的活动,表示参加过和活动e′同类别的活动的用户,从用户u中选择兴趣度大于T2或者距离小于T1的用户作为候选测试样本用户集;然后测试样本集testpredict构建方法如下:testpredict=labelpointtestuserset,e′10labelpoint表示步骤7.1表示的标注点构建方法;将测试样本用户集与待预测活动e′按照步骤7.1构建特征向量,然后将其构建好的特征向量作为输入代入到决策树模型中,如下式所示,outputpredict=modelgdbttestpredict11outputpredict为输出结果集合,其中包含着每位候选用户的活动预测情况;modelgdbt表示决策树模型;计算得到预测会出席的人数,计算方法如下所示: outputlabel=1代表预测结果中label值为1,即预测的用户出席活动,表示将预测结果为出席活动的用户数量进行累加,以得到出席未来活动e′的出席人数Npredict;所述步骤三中,天气数据按照出现频率进行量化的方法为:Weathere=n-indexeWeathere表示活动e的天气方面的因素,Weathere越大,说明某种天气出现次数越多;n表示天气的种类总数;indexe表示活动e举办时的天气进行量化后的数字,活动e举办时出现次数最多的天气用数字0表示,出现第二多的用1表示,依此类推,出现次数最少的天气用数字n-1表示,indexe的取值范围是0-n;所述步骤四中对室内活动天气数据的处理方法为:首先计算天气数据的舒适度指数DI:DI=T-0.55-0.55fT-58;其中DI表示舒适度指数,T表示日平均温度,f表示相对湿度;然后计算在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比β;再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比:
全文数据:基于活动的社交网络下的一种结合环境数据的活动出席预测方法技术领域[0001]本发明涉及一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法,属于社交网络分析技术领域。[0002]背景内容[0003]在基于活动的社交网络中,现有的预测活动出席率的技术中考虑了活动本身的相关属性,例如举办地点、举办时间、活动内容、社会影响等,其中有的技术是比较前后活动之间在上述这些方面的相似性;有的技术则是将上述各方面因素与活动出席人数的关系进行量化,综合了大数据分析和机器学习技术构建预测方案,可以使预测的准确度达到一个客观的效果。现有技术方案如图1所示。现有的技术由于没有考虑到活动自身某些特定的因素例如持续时间,出席成本),同时没有良好的结合相关外因,对某些特定类型的活动进行出席预测的效果不是很好。[0004]名词解释:决策树DecisionTree模型:是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。发明内容[0005]本发明克服现有技术存在的不足,本发明公开了一种基于活动的社交网络下的一种结合环境数据的活动出席预测方法。将所有活动分为室内室外两类,并考虑环境数据对以上两种活动的不同影响方式,结合出席成本、季节性影响等因素,构建相应的特征向量,然后结合机器学习相关算法进行活动人数的预测。本专利以活动举办者的角度,研究活动出席的可能性,这样可以提高举办活动的人气、效果等,对举办组织的维持也有很大帮助,同时也可以帮助组织者吸引更多的用户,扩大自身的影响力。[0006]为解决上述技术问题,本发明所采用的技术方案为:[0007]—种基于活动的社交网络下结合环境数据的活动出席预测方法,包括如下步骤:[0008]步骤一:收集客户参加活动的历史数据;[0009]步骤二、将活动分为户外活动和室内活动;确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响;[0010]步骤三、对于室外活动,将天气数据按照出现频率进行量化,天气数据包括晴、雨、阴、多云、雪,确定天气数据对活动出席率的影响;[0011]步骤四、对于室内活动,根据温度和湿度计算天气舒适度指数,确定天气舒适度指数对活动出席率的影响;对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比;衡量用户对活动的兴趣度与活动距离对出席概率的影响程度;[0012]步骤五、确定客户的活动出席成本,所述活动出席成本包括时间成本和经济成本;[0013]步骤六、确定客户参加活动的季节性偏好;[0014]步骤七、综合上述步骤,构建每个客户参加活动的概率模型,汇总得到活动最终出席率的预测模型。[0015]进一步的改进,所述步骤三中,天气数据按照出现频率进行量化的方法为:[0016]Weathere=n-indexe[0017]Weathere表示活动e的天气方面的因素,Weathere越大,说明某种天气出现次数越多。η表示天气的种类总数。indexe表示活动e举办时的天气进行量化后的数字,其范围是0-n,活动e举办时出现次数最多的天气用数字0表示,出现第二多的用1表示,依此类推。[0018]进一步的改进,所述步骤四中对室内活动天气数据的处理方法为:首先计算天气数据的舒适度指数DI=DI=T-0.55-0.55fT-58;其中DI表示舒适度指数,T表示日平均温度,f表示相对湿度;然后计算在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比β;再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比:[0020][0021]进一步的改进,所述步骤五中确定客户的活动出席成本的处理方法为:[0022]活动出席成本包括时间成本和经济成本;时间成本的确定方法为:[0024]其中Time_Costei表示客户参加活动ei的时间成本,Cei表示与ei同类的活动集合,Dtei代表活动的持续时间;AvgDte表示与ei同属为一类别的活动的平均持续时间;Dte表示和ei同类别的所有活动持续时间之和;[0025]确定经济成本的计算公式为:[0027]其中,e为所有和活动同属为一类别的活动,CosUe1代表活动的花费;Eco_Costei表示客户参加活动ei的经济成本;Coste表示和ei同类别的所有活动的花费之和;Cei表不与ei同类的活动集合。[0028]进一步的改进,所述步骤六中确定客户参加活动的季节性偏好的处理方法为:[0029]计算公式如下:[0030]Import_seasonei=Dseasone〇,seasonu4[0031]其中Seasonei为活动的常办季节向量,对同类活动的举办季节进行统计,得到同类活动在每个季节所举行的次数,按次数从大到小对季节编码进行排序,得到一个四维向量Seasonei;[0032]Seasonu为用户的季节偏好,对上述所有同类活动中某个用户参加的活动的举办季节进行统计,得到上述某个用户在每个季节参加活动的次数,按次数从大到小对季节编码进行排序,得到一个四维向量SeasonU;[0033]然后,计算Seasonei与SeasonU的欧氏距离得到客户参加活动的季节性偏好Import_seasonei,Import_seasonei值越小,表明该活动越符合上述某个用户的季节偏好。[0034]进一步的改进,所述步骤七中构建每个客户参加活动的概率模型步骤如下:[0035]7.1标注点的搭建:根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量,即标注点的搭建,搭建方法如下:。若某一个活动为eo;参加活动eo的用户集为UeO,人数为N个,分别设为Ul,U2,U3,U4......UN;[0036]用户i与活动之间的距离为DUl,e〇,ie1,N,u为距离标识,m表示用户i的距离标识;那么活动eo的“距离”变量Deo为:[0037]Deo=Dm,eo5[0038]用户i的兴趣度为用户i参加的活动中,和eo同类别的活动与活动总数之比I1;那么整个活动的参加用户兴趣度为:[0039]Ie〇=Ii6[0040]则活动E的时间成本为:Time_Costeo、经济成本为Eco_Costeo、季节性偏好为:Import_seasoneo;然后分为以下两种情况:[0041]1对于室内活动:天气因素是通过改变权重来影响活动出席的,[0042]因此构建标注点形式的特征向量:[0043]label,(yi*Ieo,[0044]y2*Deo,y3*Time_Costeo,y4*Eco_Costeo,y5*Import_seasoneo[0045]71,72,73,74,75为各因素的权重,71,72,73,74,75的比值为:0:]^|〇1-64.5|+1〇:0.5:0.5:0.5[0046]2对于室外活动:天气因素是直接影响活动出席的,因此构建标注点形式的特征向量:[0047]label,(yi*Ieo,[0048]y2*Deo,y3*Time_Costeo,y4*Eco_Costeo,y5*Import_seasoneo,y6*Weathereo[0049]yi,y2,y3,y4,ys,y6为各因素的权重,具体比值为:[0050]β:1:0·5:0·5:0·5:2[0051]其中标注点中的label值为1即为该用户参加了该活动,0即为该用户没有参加该活动[0052]7.2训练样本的选取:对于属于同一类的活动建立正样本集P和负样本集:首先提取两个阈值T1,T2来协助选择负样本集,T1的计算方法为:[0053]Ti=minΙι,Ι2,Ι3,···ΙνJ[0054]即某同一类活动!^值为参加这类活动的用户的兴趣度的最小值;I1代表第i个用户参加eo活动的用户的兴趣度;[0055]T2的计算方法为:[0056]T2=maxDui,eo,DU2,eo,DU3,eo··.DUN,eo8[0057]即某类活动的T2值为参加这类活动的用户与活动的距离最大值;[0058]对于负样本集的构造,首先从没有参加活动E的所有用户中确定负样本候选集,确定负样本候选集Ite的方法为:[0059]Uκe0T2}9.[0060]负样本集Neg=SampleUf_10;[0061]Train_dataset=正样本P+负样本N11[0062]公式9中u表示未参加活动eo的用户,表示参加活动eo的用户集合;选择兴趣度大于阈值TdP或距离小于阈值!^的未参加活动的用户作为候选的负样本用户集,通过随机抽样的方法抽取和正样本数量相等的负样本用户,将这些用户按照步骤7.1建立特征向量,其中标注点中的label值为0;正样本集和负样本集包含的样本相同;将正负样本整合至一起得到训练样本集train_dataset;[0063]7.3分类器的建立:训练样本集构建完成后,采用决策树中的gbdt决策树分类算法结合训练样本构建分类器模型,公式如下:[0064]modelpredict=fgdbttrain_dataset12[0065]fgdbt指gdbt决策树算法函数,modelpredict为算法输出的模型;[0066]6.4测试样本的选取:模型训练完成后,进行预测,选取测试样本,若有待预测人数的未来活动e,选择测试样本testUS3rse3t的方法如下:[0068]V是指和e属于同类的所有活动的集合;[0069]uecv是指参加过与活动〆同类活动的用户u,ec代表和活动〆同类别的活动,从用户u中选择兴趣度大于T2或者距离小于T1的用户作为候选测试样本用户集;然后测试样本集testpradi。!;构建方法如下:[0070]testpredict=labelpointtestuserset?Θ014[0071]labelpoint表示()步骤7.1表示的标注点构建方法;[0072]将测试样本用户集与待预测活动〆按照步骤7.1构建特征向量,然后将其构建好的特征向量作为输入代入到决策树模型中,如下式所示,[0073]OUtputpredict—Hiodelgdbttestpredict15[0074]OUtputpredi。!;为输出结果集合,其中包含着每位候选用户的活动预测情况;modeIgdbt表示决策树模型;[0075]计算得到预测会出席的人数,计算方法如下所示:[0077]OUtputlabe3l=I代表预测结果中label值为1,即预测结果为出席活动,将这样的用户数量进行相加而得未来活动e、的出席人数。本发明测试样本就是在一定条件下筛选出来的,我们有理由相信筛选出来的就是全部可能会出席的候选人,以这个测试样本去预测得到的出席人数即为实际的出席人数。附图说明[0078]图1为现有的活动出席预测方法图;[0079]图2为活动出席成本组成与构建示意图;[0080]图3为活动分类与环境影响的示意图。[0081]图4为季节性因素的处理的示意图。[0082]图5为活动出席预测完整过程示意图具体实施方式[0083]本专利完整的技术方案如图5所示。[0084]我们的技术主要有以下创新点:[0085]1.考虑到天气数据这外在因素对活动本身,以及用户本身的影响。[0086]2.将活动按户外和室内分类,进行考虑。[0087]3.新增加一个特征:出席成本。其中包括“时间成本”和“经济成本”。[0088]4.我们考虑了活动持续时间这一因素。[0089]—.天气数据影响活动与活动分类[0090]不同的天气对活动的举办影响很大,与此同时,不同的活动受天气影响的程度也不同。因此本次的实验首先将活动按照类别分类,分为户外活动和室内活动,即设置一个变量isjnsides.其值有0和1这两个选择,0代表为户外活动;1代表为室内活动。下表为常见的室内户外活动分类[0092]然后,我们将天气对两类活动的影响也分类,将天气对户外活动的影响称作直接影响;将天气对室内活动的影响作为间接影响。[0093]直接影响:对于户外活动来说,天气数据尤为重要,天气好坏是用户是否参加一个户外活动的很大的因素。因此对于这种直接影响,我们直接将天气数据放入特征向量中。接下来的重点便为数据数字化,具体方法为:按照字符出现的频率高低,对字符进行量化排序,例如气候变量中“晴”出现的次数最多,便将其编号为“〇”,依次顺序编号。[0094]间接影响:对于室内活动来说,天气数据对其的影响仍不小。经过研究,我们发现,其是通过改变其它因素对活动出席影响的权重来间接影响的。具体描述如下。我们首先给出一个天气指数来对天气的好坏进行一个评定,我们从活动本身提取出两个关键的因素:用户兴趣度以及活动距离。用户兴趣度即为用户对某一类活动的热衷程度,活动距离为活动地点和用户住址之间的距离。在理想状况下,用户兴趣影响出席的权重是要高于活动距离的。而天气恰恰影响着两者的权重比例关系:当天气比较差时,用户往往对一些距离比较远的活动不感兴趣了。基于此,我们的方法如下:[0095]首先,我们要给天气数据进行一个好坏的定义,即舒适度指数。舒适度指数是描述气温和湿度对人体的综合影响指标之一,它表征人体在某种温、湿度条件下对该空气环境感觉舒适的程度,用气温和相对湿度的不同组合来表示。通过调查,我们利用已有方法将舒适度指数计算公式定义为:[0096]DI=T-0.55-0.55fT-58[0097]其中DI为舒适度指数,T为平均温度,f为相对湿度。DI的取值范围一般在0-90之间,值越高或者越低,人体都会感到不舒适,其中DI=59-70时,人体最为舒适。[0098]在此基础上,本专利引入一个用户兴趣度与用户与活动距离对出席影响的权重比值β,其比值的意义在于衡量两种因素对出席影响的程度大小,比值大于1说明用户兴趣度相较与用户距离更影响用户出席的概率。因此,在理想情况下,β大于1;不过当我们将天气情况结合考虑过后,发现天气情况是通过改变邱勺值来影响活动出席的,其比值变为::[0100]二.出席成本的构建[0101]本专利定义了一个新的潜在变量:出席成本。每个用户在参加一个活动之前,都会考虑自己出席这个活动的成本。我们将出席成本细分为几类:[0102]1.时间成本:用户出席一个活动的时间成本主要取决于其在活动上需要花费的时间,即活动的持续时间。用户参加活动的时间越长,其时间成本越大。与此同时,由于活动的类型不同,持续时间也会不一样。例如一次写作交流可能持续一个小时;一次观影活动持续二到三个小时;而一次演唱会得持续时间可能更长。因此,我们采用一种时间占比的方法来判定某个活动持续时间长短,即用户所花费的时间成本大小。计算公式如下:[0104]其中e为所有和^同属为一类别的活动,Dtei代表活动的持续时间。时间成本即该活动持续时间与该类活动平均持续时间之比。[0105]2.经济成本:通过对线下活动的调查,我们发现大部分的线下活动都会有相应的花费。小到野餐聚会,大到演唱会等,都有一定的花费。经济成本和时间成本一样,同样不能统一考虑。跟时间成本一样,我们仍然用占比的方法来判定其花销。[0106]公式:[0108]其中e为所有和同属为一类别的活动,Costei代表活动的花费。时间成本即该活动的花费与该类活动平均花费之比。[0109]三.季节性的影响[0110]活动的出席还会受到季节的影响。针对于季节性的研究,我们首先将时间按照季节性进行一个基本分类,具体为:12月-2月:冬季,编码为4;3月-5月:春季,编码为1;6月-8月:夏季,编码为2;9月-11月:秋季,编码为3;然后我们要对某类活动的常办季节与用户的季节偏好进行匹配,以此来作为季节因素的变量。计算方法如下:[0111]Import_seasone〇=Dseasone〇,seasonu;[0112]Seasonei:其为活动的常办季节向量,通过对同类活动的举办季节进行统计,得到该类活动在每个季节所举行的次数,按次数从大到小对季节编码进行排序,得到一个四维向量。[0113]SeasonU:该向量为用户的季节偏好,对用户参加的所有活动所在季节进行统计得到用户在每个季节参加活动的次数,按次数从大到小对季节编码进行排序,得到一个四维向量。[0114]然后计算两者的欧氏距离得到Import_season。该值越小,说明该活动越符合用户的季节偏好。[0115]上述实例仅是本发明的一个具体实施方式,对其的简单变换、替换等也均在发明的保护范围内。
权利要求:1.一种基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,包括如下步骤:步骤一:收集客户参加活动的历史数据;步骤二、将活动分为户外活动和室内活动;确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响;步骤三、对于室外活动,将天气数据按照出现频率进行量化,天气数据包括晴、雨、阴、多云、雪,确定天气数据对活动出席率的影响;步骤四、对于室内活动,根据温度和湿度计算天气舒适度指数,确定天气舒适度指数对活动出席率的影响;对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比;衡量用户对活动的兴趣度与活动距离对出席概率的影响程度;步骤五、确定客户的活动出席成本,所述活动出席成本包括时间成本和经济成本;步骤六、确定客户参加活动的季节性偏好;步骤七、综合步骤一到步骤六,构建每个客户参加活动的概率模型,汇总得到活动最终出席率的预测模型。2.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,所述步骤三中,天气数据按照出现频率进行量化的方法为:Weathere=n-indexeWeathere表示活动e的天气方面的因素,Weathere越大,说明某种天气出现次数越多;η表示天气的种类总数;indexe表示活动e举办时的天气进行量化后的数字,其范围是0-n,活动e举办时出现次数最多的天气用数字O表示,出现第二多的用1表示,依此类推。3.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,所述步骤四中对室内活动天气数据的处理方法为:首先计算天气数据的舒适度指数01:01=1'-0.55-0.55幻(1'-58;其中01表示舒适度指数,T表示日平均温度,f表示相对湿度;然后计算在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比β;再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比:4.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,所述步骤五中确定客户的活动出席成本的处理方法为:活动出席成本包括时间成本和经济成本;时间成本的确定方法为:2其中Time_Costei表示客户参加活动ei的时间成本,Cei表示与ei同类的活动集合,Dte〇代表活动的持续时间;AvgDte表示与ei同属为一类别的活动的平均持续时间;Dte表示和ei同类别的所有活动持续时间之和;确定经济成本的计算公式为:3其中,e为所有和活动ei同属为一类别的活动,Costei代表活动ei的花费;Ec〇_C〇stei表示客户参加活动ei的经济成本;Coste表示和ei同类别的所有活动的花费之和;Cei表示与ei同类的活动集合。5.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,所述步骤六中确定客户参加活动的季节性偏好的处理方法为:计算公式如下:其中Seasonei为活动的常办季节向量,对同类活动的举办季节进行统计,得到同类活动在每个季节所举行的次数,按次数从大到小对季节编码进行排序,得到一个四维向量Seasonei;Seasonu为用户的季节偏好,对所有同类活动中某个用户参加的活动的举办季节进行统计,得到某个用户在每个季节参加活动的次数,按次数从大到小对季节编码进行排序,得到一个四维向量SeasonU;然后,计算Seasonei与Seasonu的欧氏距离得到客户参加活动的季节性偏好值越小,表明该活动越符合某个用户的季节偏好。6.如权利要求1所述的基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,所述步骤七中构建每个客户参加活动的概率模型步骤如下:7.1标注点的搭建:根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量,即标注点的搭建,搭建方法如下:若某一个活动为eo;参加活动eo的用户集为UeQ,人数为N个,分别设为Ul,U2,U3,U4......UN;用户i与活动之间的距离为DUl,e〇,ie1,N,u为距离标识,U1表示用户i的距离标识;那么活动eo的“距离”变量Deo为:用户i的兴趣度为用户i参加的活动中,和eo同类别的活动与活动总数之比I1;那么整个活动的参加用户兴趣度为:则活动E的时间成本为:Time_Costeo、经济成本为Eco_Costeo、季节性偏好为:Import_seasoneo;然后分为以下两种情况:1对于室内活动:天气因素是通过改变权重来影响活动出席的,因此构建标注点形式的特征向量:,为各因素的权重的比值为:f3:lg|DI-64.5|+10:0.5:0.5:0.52对于室外活动:天气因素是直接影响活动出席的,因此构建标注点形式的特征向量:为各因素的权重,具体比值为:β:1:0.5:0.5:0.5:2其中标注点中的label值为1即为该用户参加了该活动,0即为该用户没有参加该活动7.2训练样本的选取:对于属于同一类的活动建立正样本集P和负样本集:首先提取两个阈值T1,T2来协助选择负样本集,T1的计算方法为:即某同一类活动!^值为参加这类活动的用户的兴趣度的最小值;I1代表第i个用户参加eo活动的用户的兴趣度;T2的计算方法为:即某类活动的T2值为参加这类活动的用户与活动的距离最大值;对于负样本集的构造,首先从没有参加活动E的所有用户中确定负样本候选集,确定负样本候选集Ul趨的方法为:负样本集Neg=SampleU{_10;公式9中u表示未参加活动e〇的用户:表示参加活动e〇的用户集合;选择兴趣度大于阈值TjP或距离小于阈值!^的未参加活动的用户作为候选的负样本用户集,通过随机抽样的方法抽取和正样本数量相等的负样本用户,将这些用户按照步骤7.1建立特征向量,其中标注点中的label值为0;正样本集和负样本集包含的样本相同;将正负样本整合至一起得到训练样本集train_dataset;7.3分类器的建立:训练样本集构建完成后,采用决策树中的gbdt决策树分类算法结合训练样本构建分类器模型,公式如下:fgdbt指gdbt决策树算法函数,modelpredict为算法输出的模型;6.4测试样本的选取:模型训练完成后,进行预测,选取测试样本,若有待预测人数的未来活动e,选择测试样本testuse3rse3t的方法如下:〇是指和y属于同类的所有活动的集合;ueG是指参加过与活动〆同类活动的用户u,e。代表和活动〆同类别的活动,从用户u中选择兴趣度大于T2或者距离小于T1的用户作为候选测试样本用户集;然后测试样本集testpredict构建方法如下:Iabelpoint表示()步骤7.1表示的标注点构建方法;将测试样本用户集与待预测活动e按照步骤7.1构建特征向量,然后将其构建好的特征向量作为输入代入到决策树模型中,如下式所示,OUtputpredict为输出结果集合,其中包含着每位候选用户的活动预测情况;modelgdbtO表示决策树模型;计筧得到预测会出席的人数,计筧方法如下所示:Outputlabel=I代表预测结果中label值为1,即预测结果为出席活动,将这样的用户数量进行相加而得未来活动e、的出席人数。
百度查询: 湖南大学 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。