买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西北工业大学
摘要:本发明提供一种基于多任务学习机制的移动应用消亡预测方法,通过划分预测时长为若干阶段,利用多任务学习机制将每个阶段中应用生存状态的预测作为一个子任务;针对每个子任务制定风险函数,不同子任务之间通过似然函数关联起来。整体模型由一组有序且存在依赖关系的分类器构成,从而对应用是否消亡进行预测。这种方法能够在不同任务之间实现参数共享,有效学习并利用了任务之间的隐含关联关系;并且针对时间划分预测任务,使得分类器每次专注于子任务的预测而非全局,能够有效减少预测误差,克服长期预测中准确率低、召回率差等问题。
主权项:1.一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:包括以下步骤:S1:获取移动应用的各项特征数据,对数据进行预处理操作,包括样本过滤、语句分割、文本处理,针对时序数据提取用于预测的特征;所述特征包括:载量、评论、评分、用户情感和竞争性;S2:分析所述特征对移动应用的生存情况的影响;S3:将预测总时间划分为多个子阶段,预测任务划分为多个子任务,每个子任务建立子模型对每个子阶段的移动应用进行消亡预测;S4:获取各子任务之间的关联关系,然后关联多个任务的模型:S5:使用逻辑回归模型,基于前述每一个子阶段的生存概率进行估计,对移动应用进行消亡预测。
全文数据:一种基于多任务学习机制的移动应用消亡预测方法技术领域本发明涉及移动应用,尤其涉及基于多任务学习机制的移动应用消亡预测问题。背景技术随着智能手机的普及,应用商店中包含了成千上万的应用,它们涉及的领域非常广泛,从日常工作和娱乐到在线购物和社交通信。但是,一款应用的流行度取决于许多因素,包括下载量、评分和评论等。一旦应用的流行度下降到一定程度,就有可能被应用商店下架。具体而言,预测应用是否将在下一个给定时间段内被下架的工作就是应用的消亡预测。消亡预测对于利益相关者来说非常重要。对于开发人员来说,了解和跟踪应用的生存情况有助于他们提前采取行动,以防止或减轻应用消亡造成的潜在风险。对于应用商店,消亡预测有利于维护应用的生态系统,例如更新应用的排名并定期下架将要消亡的应用。此外,应用的消亡预测对于投资者的决策至关重要。它有助于评估应用是否能够为投资者带来显著收益,并规避投资风险。发明内容针对现有缺陷,本发明提供一种基于多任务学习机制的移动应用消亡预测方法,本发明的技术方案为:一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:包括以下步骤:S1:获取移动应用的各项特征数据,对数据进行预处理操作,包括样本过滤、语句分割、文本处理,针对时序数据提取用于预测的特征;所述特征包括:载量、评论、评分、用户情感和竞争性;S2:分析所述特征对移动应用的生存情况的影响;S3:将预测总时间划分为多个预测阶段,预测任务划分为多个子任务,每个子任务建立模型对每个预测阶段的移动应用进行消亡预测;S4:获取各子任务之间的关联关系,然后关联多个任务的模型:S5:使用逻辑回归模型,基于前述每一个子阶段的生存概率进行估计,对移动应用进行消亡预测。进一步的,一种基于多任务学习机制的移动应用消亡预测方法,所述S3中对每个子阶段设置生存风险函数,获取移动应用在该阶段仍然存活的概率。进一步的,一种基于多任务学习机制的移动应用消亡预测方法,所述风险函数用下述公式表示:其中:为移动应用程序存活时间超过ti个月的生存概率,Xi表示提取的特征,参数向量θi用于描述特征对移动应用生存机会的影响,bi为阈值。进一步的,一种基于多任务学习机制的移动应用消亡预测方法,所述S4采用似然函数对多个子模型进行关联;其中:Θ=θ1,θ2,...,θm,PΘ表示在不同时间点的移动应用的联合生存概率,y1,y2,…,ym表示移动应用在时间点的实际生存状态编码,yi为1时表示当前时间点移动应用仍然存在于应用市场中,为0表示当前时间应用已经下架。fΘX,k表示在逻辑变换之前事件发生在时间区间[tk,tk+1内的得分。进一步的,一种基于多任务学习机制的移动应用消亡预测方法,对S4中似然函数取对数以设计优化目标,所述优化目标用于实现参数共享;所述优化目标表示为:其中:Si表示移动应用的生存时间,C1和C2为控制模型平滑程度的正则化常数。第一个正则数超过||θj||2确保参数向量的范数有界,以防止过拟合。第二个正则化器||θj+1-θj||2确保参数在连续时间点内平滑变化,对于在时间点变密时控制模型的大小尤为重要。进一步的,一种基于多任务学习机制的移动应用消亡预测方法,所述S5基于每一个阶段前述的生存概率Pi进行估计:PX=1+expw·X+b-1其中:X={P1,P2,…,P12},表示移动应用12个月的存活概率序列,w和b是模型训练的参数。本发明通过划分预测时长为若干阶段,利用多任务学习机制将每个阶段中应用生存状态的预测作为一个子任务;针对每个子任务制定风险函数,不同子任务之间通过似然函数关联起来。整体模型由一组有序且存在依赖关系的分类器构成,从而对应用是否消亡进行预测。这种方法能够在不同任务之间实现参数共享,有效学习并利用了任务之间的隐含关联关系;并且针对时间划分预测任务,使得分类器每次专注于子任务的预测而非全局,能够有效减少预测误差,克服长期预测中准确率低、召回率差等问题。附图说明图1为本发明实例提供的一种基于多任务学习机制的移动应用消亡预测方法流程图;图2为一种基于多任务学习机制的移动应用消亡预测方法多任务学习机制预测模型;图3为一种基于多任务学习机制的移动应用消亡预测方法在不同评价指标中的表现。具体实施方式下面结合附图来进一步描述本发明的技术方案:请参阅图1所示,一种基于多任务学习机制的移动应用消亡预测方法,S1:获取移动应用的各项特征数据,对数据进行预处理操作,包括样本过滤、语句分割、文本处理,针对时序数据提取用于预测的特征;所述特征包括:载量、评论、评分、用户情感和竞争性。采集苹果应用商店中在2015年12月上架的38,000款应用的特征信息,包括应用名称、应用类别、下载量、评论、评分等,这些特征数据均为该应用在2016年一整年的表现;剔除其中特征数据过少或者数据长期没有更新的应用。除均值、中位数和众数等统计特征外,还有部分重要特征:1序列平方和:2序列连续变化的绝对值之和:3聚合处理后的自相关性:其中σ2表示方差,μ表示均值;4序列分布均匀度:其中t=minmax_bins,lenx,pk表示落在第k个区间中的数字占总体的比例;5超值峰度:衡量数据分布与正态分布的差异,其中μ为均值,σ为标准差,这里减3是为了使正态分布的峰度为0。S2:分析所述特征对移动应用的生存情况的影响;经过数据整理,用于预测应用是否消亡的特征共有五类:下载量、评论、评分、评论情感和竞争性。不同因素对移动应用的生存状态有不同的影响,具体表现在:历史的下载量直接反映了使用某款应用的新增人数,如果下载量长时间下降很有可能导致应用被商店下架;评论能够反映用户对应用的直接意见,并且直接影响了新用户是否选择下载使用;评分直接反映用户对应用的满意程度,影响了应用的排名和流行度;评论情感能够反映用户对移动应用的情感倾向,是影响应用生命状态的重要指标;竞争性反映了应用在市场中的排名,激烈的市场竞争不利于应用的生存。请参阅图2所示,多任务学习机制预测模型,S3:在缺少2017年一整年的特征数据的情况下,预测2018年1月1日时移动应用的下架情况。将预测总时间划分为12个子阶段,对应2017年的12个月。因此下架预测任务被划分为12个子任务,每个子任务建立子模型对每个子阶段的移动应用进行消亡预测,即是否被应用市场从列表中下架。采用逻辑回归模型来定义每一个阶段的风险函数,公式如下:其中:为移动应用程序存活时间超过ti个月的生存概率,Xi表示提取的特征,参数向量θi用于描述特征对移动应用生存机会的影响,bi为阈值。S4:获取各子任务之间的关联关系,然后关联多个任务的模型:为了捕获不同阶段对应的子任务之间的隐含关联关系,通过似然函数将多个子模型关联起来:其中:Θ=θ1,θ2,…,θm,PΘ表示在不同时间点的移动应用的联合生存概率,y1,y2,…,ym表示移动应用在时间点的实际生存状态编码,yi为1时表示当前时间点移动应用仍然存在于应用市场中,为0表示当前时间应用已经下架。fΘX,k表示在逻辑变换之前事件发生在时间区间[tk,tk+1内的得分。对S4中似然函数取对数以设计优化目标,所述优化目标用于实现参数共享;所述优化目标表示为:其中:Si表示移动应用的生存时长,C1和C2为控制模型平滑程度的正则化常数。第一个正则数超过||θj||2确保参数向量的范数有界,以防止过拟合。第二个正则化器||θj+1-θj||2确保参数在连续时间点内平滑变化,对于在时间点变密时控制模型的大小尤为重要。S5:使用逻辑回归模型,基于前述每一个子阶段的生存概率进行估计,预测移动应用程序在2018年1月1日时的生存状态,即处于上架状态还是已经被下架。消亡预测中使用逻辑回归模型,基于每一个阶段前述的生存概率Pi进行估计。PX=1+expw·X+b-1。其中:X={P1,P2,…,P12},表示移动应用12个月的存活概率序列,w和b是模型训练的参数。请参阅图3所示,一种基于多任务学习机制的移动应用消亡预测方法和其他基准方法在不同评价指标中的表现。图中数据表明本发明提出的基于多任务学习机制的移动应用消亡预测方法相较于其他方法在预测移动应用消亡方面具有相对更好的性能。
权利要求:1.一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:包括以下步骤:S1:获取移动应用的各项特征数据,对数据进行预处理操作,包括样本过滤、语句分割、文本处理,针对时序数据提取用于预测的特征;所述特征包括:载量、评论、评分、用户情感和竞争性;S2:分析所述特征对移动应用的生存情况的影响;S3:将预测总时间划分为多个子阶段,预测任务划分为多个子任务,每个子任务建立子模型对每个子阶段的移动应用进行消亡预测;S4:获取各子任务之间的关联关系,然后关联多个任务的模型:S5:使用逻辑回归模型,基于前述每一个子阶段的生存概率进行估计,对移动应用进行消亡预测。2.根据权利要求1所述的一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:所述S3中对每个子阶段设置生存风险函数,获取移动应用在该阶段仍然存活的概率。3.根据权利要求2所述的一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:所述风险函数用下述公式表示:其中:为移动应用程序存活时间超过ti个月的生存概率,Xi表示提取的特征,参数向量θi用于描述特征对移动应用生存机会的影响,bi为阈值。4.根据权利要求1所述的一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:所述S4采用似然函数对多个子模型进行关联;其中,Θ=θ1,θ2,...,θm,其中:PΘ表示在不同时间点的移动应用的联合生存概率,y1,y2,...,ym表示移动应用在时间点的实际生存状态编码,yi为1时表示当前时间点移动应用仍然存在于应用市场中,为0表示当前时间应用已经下架。fΘX,k表示在逻辑变换之前事件发生在时间区间[tk,tk+1内的得分。5.根据权利要求4所述的一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:对S4中似然函数取对数以设计优化目标,所述优化目标用于实现参数共享;所述优化目标表示为:其中:Si表示移动应用的生存时间,C1和C2为控制模型平滑程度的正则化常数。第一个正则数超过||θj||2确保参数向量的范数有界,以防止过拟合。第二个正则化器||θj+1-θj||2确保参数在连续时间点内平滑变化,对于在时间点变密时控制模型的大小尤为重要。6.根据权利要求1所述的一种基于多任务学习机制的移动应用消亡预测方法,其特征在于:所述S5基于每一个阶段前述的生存概率Pi进行估计:PX=1+expw·X+b-1其中:X={P1,P2,...,P12},表示移动应用12个月的存活概率序列,w和b是模型训练的参数。
百度查询: 西北工业大学 一种基于多任务学习机制的移动应用消亡预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。