买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请公开了一种模型质量评估方法和装置;本申请实施例可以获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求;当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。本申请采用集群的方式进行预测,降低了预测值的计算时间,由此,该方案可以提升模型质量评估效率。
主权项:1.一种模型质量评估方法,其特征在于,适用于评估终端,包括:获取预测模型和至少两个测试数据子集,所述测试数据子集中包括至少一个标注了真实值的测试数据,所述预测模型用于预测对象行为指标,所述对象行为指根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数标用于反应对象在网络上针对特定网络信息所出现行为,所述特定网络信息包括广告、推荐视频、新闻头条;向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,其中,所述预测请求用于指示每个所述预测终端采用所述预测模型对所述预测请求携带的测试数据子集中的测试数据进预测,所述终端集群包括多个预测终端,每个所述预测终端在获得所述预测请求后均搭载所述预测请求携带的预测模型;当终端集群中预测终端完成预测时,从预测终端中获取所述测试数据的预测值,得到终端集群中每个预测终端预测的每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别;根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数;所述根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,包括:从所述终端集群中所有预测终端发送的测试数据的预测值中,选取一个目标预测值;基于所述目标预测值、所述预测值和所述真实值,对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,所述类别包括真正样本数据、假正样本数据、真负样本数据、假负样本数据。
全文数据:模型质量评估方法和装置技术领域本申请涉及计算机领域,具体涉及一种模型质量评估方法和装置。背景技术监督学习supervisedlearning是指利用一组训练数据,学习该数据输入和输出之间的映射关系,然后将这种映射关系应用到未知数据,以达到对该位置数据进行分类或回归的目的。而在预测领域,通过监督学习的方式机器可以学习到的训练数据与训练数据的真实值之间的映射关系,该映射关系可以被称为预测模型。一个预测模型的质量好坏可以影响该模型输出预测结果的精度,因此,在一个预测模型投入使用之前需要预先检测该模型的质量,即该模型在新测试数据上的表现如何,以确定该模型是否可以投入使用,显然,现有技术存在以下问题:预测模型质量评估的方法效率低下。发明内容本申请实施例提供一种模型质量评估方法和装置,可以提升预测模型质量评估的效率。本申请实施例提供一种模型质量评估方法,适用于评估终端,包括:获取预测模型和至少两个测试数据子集,所述测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,其中,所述预测请求用于指示所述预测终端采用所述预测模型对所述测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取所述测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别;根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数。在一些实施例中,根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数,包括:统计每一种类别在所有类别中所占的比例;基于每一种类别在所有类别中所占的比例计算所述预测模型的模型质量参数。在一些实施例中,根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,包括:从终端集群中所有预测终端发送的测试数据的预测值中确定目标预测值;基于所述目标预测值、测试数据的预测值和真实值对所述测试数据进行分类。在一些实施例中,获取预测模型和至少两个测试数据子集,包括:获取预测模型和测试数据集,所述测试数据集中包括至少一个标注了真实值的测试数据;对所述测试数据集中的测试数据进行划分操作,得到至少两个测试数据子集。在一些实施例中,获取预测模型和测试数据集,包括:获取预测模型和待预处理测试数据集;确定所述待预处理测试数据的数据类型;基于所述数据类型对所述待预处理测试数据集中的待预处理测试数据进行数据格式转换,得到测试数据集。在一些实施例中,所述从预测终端中获取所述测试数据的预测值,还包括:获取预设的数值范围,以及所述数值范围对应的预设阈值;确定所述测试数据的预测值所处数值范围;根据所述预测值所处数值范围对应的预设阈值对所述预测值进行赋值处理,得到所述测试数据的赋值处理后预测值。根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,包括:根据所述测试数据的赋值处理后预测值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别。在一些实施例中,向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,包括:获取预测终端的启动状态信息和数据获取状态信息;根据所述启动状态信息和数据获取状态信息确定预测终端的启动状态和数据获取状态;当所述预测终端的启动状态为关闭状态时,开启所述预测终端;当所述预测终端的启动状态为开启状态,且所述数据获取状态为等待获取状态时,向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求。本申请实施例提供一种模型质量评估方法,适用于预测终端,包括:接收评估终端发送的测试数据子集和预测模型,所述测试数据子集中包括至少一个测试数据;采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的预测值;当预测完成时,将所述测试数据的预测值发送给评估终端。在一些实施例中,采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的预测值,包括:获取预设的数值范围,以及所述数值范围对应的预设阈值;采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的待处理预测值;确定所述待处理预测值所处数值范围;根据所述待处理预测值所处数值范围对应的预设阈值对所述待处理预测值进行赋值处理,得到测试数据的预测值。本申请实施例还提供一种模型质量评估装置,包括:获取单元,用于获取预测模型和至少两个测试数据子集,所述测试数据子集中包括至少一个标注了真实值的测试数据;发送单元,用于向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,其中,所述预测请求用于指示所述预测终端采用所述预测模型对所述测试数据子集中的测试数据进预测;预测值单元,用于当终端集群中预测终端完成预测时,从预测终端中获取所述测试数据的预测值,得到每个测试数据子集中测试数据的预测值;分类单元,用于根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别;计算单元,用于根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数。在一些实施例中,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种模型质量评估方法中的步骤。在一些实施例中,本申请实施例还提供一种服务器,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种模型质量评估方法中的步骤。本申请实施例可以获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。在本申请中,为了解决计算预测模型的模型质量参数时需要占用大量计算资源,以及计算资源不足导致的计算卡顿、卡死等问题,可以采用集群的方式来进行用户行为指标的预测,将多个测试数据分配给预测集群中的预测终端,使其进行预测值计算,可以大大降低计算所有测试数据的预测值所消耗的运算时间,同时降低评估终端的计算量,由此,该方案可以提升预测模型质量评估的效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本申请实施例提供的模型质量评估系统的场景示意图;图1b是本申请实施例提供的模型质量评估方法的第一种流程示意图;图2a是本申请实施例提供的模型质量评估方法的第二种流程示意图;图2b是本申请实施例提供的Deep&Wide模型结构示意图;图3a是本申请实施例提供的模型质量评估方法的第三种流程示意图;图3b是本申请实施例提供的预处理流程示意图;图3c是本申请实施例提供的Spark架构示意图;图3d是本申请实施例提供的Spark的运行流程示意图;图3e是本申请实施例提供的赋值处理流程示意图;图4是本申请实施例提供的模型质量评估装置的第一种结构示意图;图5是本申请实施例提供的模型质量评估装置的第二种结构示意图;图6是本申请实施例提供的评估终端的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供一种模型质量评估方法和装置。本申请实施例提供了一种模型质量评估系统,包括:本申请实施例提供的模型质量评估装置,比如,包括适用于评估终端的模型质量评估装置、适用于预测终端的模型质量评估装置等。在一些实施例中,模型质量评估系统可以由多个适用于评估终端的模型质量评估装置、多个适用于预测终端的模型质量评估装置组成。比如,模型质量评估系统可以由一个适用于评估终端的模型质量评估装置和多个适用于预测终端的模型质量评估装置组成。比如,模型质量评估系统可以由多个适用于评估终端的模型质量评估装置和多个适用于预测终端的模型质量评估装置组成。其中,评估终端、预测终端可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑PersonalComputer,PC等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。在一些实施例中,评估终端、预测终端可以是多个服务器组成的服务器集群。比如,预测终端可以由多个服务器组成来实现本申请的模型质量评估方法。比如,评估终端也可以由多台服务器组成来实现。比如,参考图1a提供的模型质量评估系统场景示意图,该模型质量评估系统可以包括多个预测终端分别为预测终端A、预测终端B、预测终端C组成的终端集群和一个评估终端,每个预测终端可以是一个单一服务器,每个评估终端也可以是一个单一服务器。在图1a中,评估终端可以获取预测模型和多个标注了真实值的测试数据子集,并向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,比如,将携带了预测模型和一部分测试数据子集的预测请求发送给预测终端A,将携带了预测模型和另外一部分测试数据子集的预测请求发送给预测终端B,将携带了预测模型和剩余部分测试数据子集的预测请求发送给预测终端C;然后,监听终端集群中预测终端的预测完成信息,当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;最后根据多个测试数据子集中测试数据的预测值和真实值,计算预测模型的模型质量参数。在图1a中,终端集群中的预测终端可以接收评估终端发送的测试数据子集和预测模型,测试数据子集中包括至少一个测试数据;采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值;当预测完成时,将测试数据的预测值发送给评估终端。具体地,评估终端可以向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求;当预测终端接收到该请求后,预测终端可以接收评估终端发送的测试数据子集和预测模型,然后采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值,当预测完成时,预测终端可以将测试数据的预测值发送给评估终端,评估终端可以从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值,并根据多个测试数据子集中测试数据的预测值和真实值,计算预测模型的模型质量参数。以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。在本实施例中,提供了一种模型质量评估方法,该方法适用于评估终端,,如图1b所示,该模型质量评估方法的具体流程可以如下:101、获取预测模型和至少两个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据。其中,预测模型是用于预测的神经网络模型,比如,该预测模型可以用于预测用户行为指标,该指标可以用于表现用户网络行为。譬如,预测模型可以用于预测用户点击网站上特定广告的次数。其中,用户行为指标是用于反应用户在网络上针对特定网络信息所出现行为的指标,比如,按照用户行为指标的类型分类,用户行为指标可以是用户针对特定网络信息所产生行为的次数、概率、频率等指标,例如,用户行为指标可以包括用户的点击率、点击量、访问次数、访问时间、用户付费金额等指标。再比如,按照用户行为指标所针对的网络信息的类型分类,该用户行为指标可以反应用户针对网页上投放的广告、推荐视频、新闻头条等网络信息。在一些实施例中,根据用户行为指标类型的不同,预测模型可以包括广告点击率预测模型、网页访问次数预测模型、用户付费金额预测模型,等等。具体地,在一些实施例中,预测模型可以包括广告点击率预测模型,该广告点击率预测模型可以预测用户点击网页上特定广告的概率。其中,测试数据子集中可以包括多个测试数据,该测试数据可以用于测试预测模型的模型质量参数,测试数据子集中测试数据可以与预测模型在训练阶段采用的训练数据相似,比如,广告点击率预测模型在训练阶段采用的训练数据可以包括广告的属性信息和用户的属性信息,故测试数据子集中的测试数据也可以包括广告的属性信息和用户的属性信息。其中,广告的属性信息可以包括广告的图像大小、广告在网页上出现的时间、广告所属领域等信息;用户的属性信息可以包括用户的年龄、性别、学历,等信息。在一些实施例中,测试数据子集中的测试数据可以提前由人工或机器收集整理并标注其真实值,该真实值可以标注为真或假。获取预测模型和测试数据子集的方式具有多种,比如,通过网络从数据库获取该户行为指标预测模型和测试数据子集,再比如,读取本地内存中保存的户行为指标预测模型和测试数据子集,等等。在一些实施例中,可以通过网络获取测试数据子集,并读取本地内存中的预测模型。在一些实施例中,测试数据子集可以保存在测试数据集中,获取预测模型和测试数据子集可以包括以下步骤:1获取预测模型和测试数据集,测试数据集中包括至少一个标注了真实值的测试数据。其中,获取测试数据集的方式具有多种,比如,通过网络从数据库获取该测试数据集,再比如,读取本地内存中保存的测试数据集,等等。比如,在一些实施例中,获取预测模型和测试数据集具体可以包括如下步骤:a.获取预测模型和待预处理测试数据集;b.确定待预处理测试数据的数据类型;c.基于数据类型对待预处理测试数据集中的待预处理测试数据进行数据格式转换,得到测试数据集。其中,待预处理测试数据集中可以包括一个或多个待预处理测试数据,待预处理测试数据可以包括多种数据类型,比如,待预处理测试数据可以为字符串类型、字节数组类型、向量类型,等等。在一些实施例中,通过确定待预处理测试数据的数据类型,选择该数据类型对应的格式转换方法来对该数据类型进行格式转换,得到测试数据集。例如,可以将预处理测试数据中的所有信息进行序列化编码,并将得到的这些序列封装为数据帧格式,来规范化测试数据,从而进一步提升得到的模型质量参数的精确性。2对测试数据集中的测试数据进行划分操作,得到多个测试数据子集。其中,划分操作是指从测试数据集中选取部分测试数据,将该部分测试数据作为测试数据子集。譬如,在一些实施例中,划分操作可以是将测试数据集中的测试数据进行等分,例如,测试数据集中包括1000个测试数据,对这些测试数据进行10等分,得到100个测试数据子集。102、向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求。其中,该预测请求可以携带预测模型和测试数据子集,也可以携带存储了该预测模型和测试数据子集的数据库地址。比如,在一些实施例中,预测请求中可以携带测试数据子集,以及存储预测模型的模型数据库地址。其中,终端集群中可以包括一个或多个预测终端,向终端集群中相应的预测终端发送预测模型和测试数据子集的方式具有多种,比如,读取本地内存中终端集群中所有预测终端的地址信息,通过无线网络根据该地址信息向预测终端发送预测模型和测试数据子集;再比如,通过有线传输的方式直接向终端集群中相应的预测终端发送预测模型和测试数据子集,等等。在一些实施例中,可以通过网络向终端集群中相应的预测终端发送预测模型和测试数据子集,比如,具体可以包括如下步骤:a.获取预测终端的启动状态信息和数据获取状态信息;b.根据启动状态信息和数据获取状态信息确定预测终端的启动状态和数据获取状态;c.当预测终端的启动状态为关闭状态时,开启预测终端;d.当预测终端的启动状态为开启状态,且数据获取状态为等待获取状态时,将测试数据子集和预测模型发送给预测终端。其中,启动状态信息可以包括预测终端当前的启动状态,该启动状态可以包括开启状态和关闭状态,等等;数据获取状态信息可以包括预测终端当前的数据获取状态,该数据获取状态可以包括等待获取状态和停止获取状态,等等。由此,可以防止预测终端还未准备好获取预测模型和测试数据子集时,强行向终端集群中相应的预测终端发送预测模型和测试数据子集导致的误传。103、当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值。在一些实施例中,可以通过监听预测终端的预测完成信息来判断终端集群中预测终端是否完成预测,其具体步骤可以包括:a.定时接收预测终端对应地址发送的消息;b.判断该消息中的消息类型;c.若该消息的消息类型为预测完成信息类型,将该消息作为预测完成信息。比如,该预测完成信息的格式可以参考表1:消息类型消息来源地址消息发布时间消息获取时间0x0021:C4:66:1220170504212732017050421324表1其中,消息类型0x00是指该消息的消息类型为预测完成信息类型,消息来源地址21:C4:66:12可以为接收预测终端所在的网络地址,消息发布时间2017050421273可以指该消息被预测终端发布的时刻,消息获取时间2017050421324可以指该消息被接收到的时刻。在一些实施例中,可以通过降低预测值的取值精度来降低计算量、规范预测值的取值范围,故从预测终端中获取测试数据的预测值之后,还可以包括以下步骤:a.获取预设的数值范围,以及数值范围对应的预设阈值;b.确定测试数据的预测值所处数值范围;c.根据预测值所处数值范围对应的预设阈值对预测值进行赋值处理,得到测试数据的赋值处理后预测值。其中,获取预设的数值范围,以及数值范围对应的预设阈值的方法有多种,比如,该预设的数值范围,以及数值范围对应的预设阈值可以有本领域技术人员设定,也可以通过网络从数据库获取,还可以读取本地内存来获取,等等;比如,在一些实施例中,预设的数值范围,以及数值范围对应的预设阈值可以以表格的形式保存在本地内存中,通过读取本地内存中的该表格,即可获取预设的数值范围,以及数值范围对应的预设阈值。其中,该表格的格式可以参考表2:数值范围[0.00,0.100]0.100,0.255]0.255,0.355]0.355,0.500]预设阈值0.10.20.30.4表2例如,根据表2提供的预设的数值范围,以及数值范围对应的预设阈值,可以确定测试数据的预测值所处数值范围,并根据预测值所处数值范围对应的预设阈值对预测值进行赋值处理,得到测试数据的赋值处理后预测值。104、根据测试数据的预测值和真实值对测试数据进行分类,得到测试数据子集中测试数据所属的类别。比如,在一些实施例中,测试数据的预测值可以为0或1,测试数据的真实值也可以为0或1,根据测试数据的预测值和真实值可以对测试数据进行分类。其中,分类结果可以包括多种,比如,测试数据可以分类为真正样本数据、假正样本数据、真负样本数据、假负样本数据,等等。其中,真正样本数据是指预测值和真实值均为真的测试数据;假正样本数据是指预测值为真而真实值为假的测试数据;真负样本数据是指预测值和真实值均为假的测试数据;假负样本数据是指预测值为假而真实值为真的测试数据。在一些实施例中,根据终端集群中所有预测终端发送的测试数据的预测值和真实值对测试数据进行分类,得到测试数据所属的类别具体可以包括以下步骤:A.从终端集群中所有预测终端发送的测试数据的预测值中确定目标预测值;B.基于目标预测值、测试数据的预测值和真实值对测试数据进行分类。通过从终端集群中所有预测终端发送的测试数据的预测值中选取一个目标预测值,根据预测值与目标预测值之间的大小关系来确定测试数据的预测值为真还是为假。具体地,基于目标预测值、测试数据的预测值和真实值对测试数据进行分类可以包括如下步骤:a.将预测值大于等于目标预测值的测试数据划分为正样本数据,以及将预测值小于目标预测值的测试数据划分为负样本数据;b.将真实值为预设阈值的正样本划分为真正样本数据;c.将真实值为预设阈值的负样本划分为假正样本数据。其中,预设阈值可以由技术人员设定并保存在本地内存中,也可以通过网络从数据库中获取。比如,通过从终端集群中所有预测终端发送的测试数据的预测值包括0.1、0.2、0.3、0.4、0.5,假设从这些预测值中选取目标预测值0.3,则判定所有小于该目标预测值的预测值为假,所有大于该目标预测值的预测值为真,即取值为0.1、0.2的预测值均为假,取值为0.3、0.4、0.5的预测值均为真。当指预测值和真实值均为真时,该测试数据则被分类为真正样本数据;当指预测值为真而真实值为假时,该测试数据则被分类为假正样本数据;当预测值和真实值均为假时,该测试数据则被分类为真负样本数据;当预测值为假而真实值为真时,该测试数据则被分类为假负样本数据。105、根据测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数的具体步骤可以包括:a.统计每一种类别在所有类别中所占的比例;b.基于每一种类别在所有类别中所占的比例计算预测模型的模型质量参数。比如,在一些实施例中,测试数据的类别可以包括正样本数据、负样本数据、真正样本数据、和假正样本数据,统计每一种类别在所有类别中所占的比例的具体步骤可以包括:a.统计测试数据集中真负样本数据的数量、假负样本数据的数量、真正样本数据的数量、和假正样本数据的数量。b.根据测试数据集中真正样本数据的数量和正样本数据的数量计算真正率。c.根据测试数据集中假正样本数据的数量和负样本数据的数量计算假正率。其中,真正率的公式如下:假正率的公式如下:在一些实施例中,可以基于每一种类别在所有类别中所占的比例计算预测模型的模型质量参数。其中,模型质量参数可以包括接收者操作特征receiveroperatingcharacteristic,ROC、曲线下面积AreaUnderCurve,AUC,等等。在一些实施例中,可以通过真正率和假正率计算预测模型的模型质量参数。比如,当模型质量参数为AUC时,可以通过真正率和假正率计算该AUC值,其公式如下:其中,P为真正率;N为假正率;i为目标预测值;n为正整数,表示由第n个预测终端发送的所有预测数据。本申请实施例提供的模型质量评估方案可以应用在各种模型质量评估场景中。比如,以广告点击率模型的模型质量参数评估为例,首先可以通过网络从数据库中获取广告点击率模型以及测试数据子集,该测试数据子集中包括1000个标注了真实值的测试数据,该测试数据可以包括用户属性和广告属性,比如,用户属性可以包括用户的用户年龄、性别等信息,广告属性可以把控广告在特定网页上出现的时间、位置,以及广告的类型、广告内容等信息;然后,向终端集群中每个预测终端发送该广告点击率模型,以及向终端集群中每个预测终端分别发送1000个测试数据中的100个测试数据;监听预测终端的预测完成信息,当监听到预测终端发送的预测完成信息时,从预测终端中获取测试数据的预测值;最后根据终端集群中所有预测终端发送的测试数据的预测值和真实值计算预测模型的模型质量参数。采用本申请实施例提供的方案能够通过集群的方式来进行用户行为指标的预测,将多个测试数据分配给预测集群中的预测终端,使其进行预测值计算,从而可以大大降低计算所有测试数据的预测值所消耗的运算时间,同时降低评估终端的计算量,由此,本申请可以解决目前计算预测模型的模型质量参数的方法需要占用大量计算资源,以及计算时间漫长的问题。由上可知,本申请实施例可以获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。由此本方案可以通过集群的方式来进行用户行为指标的预测,降低了根据测试数据计算预测值的运算时间,由此,该方案可以提升预测模型质量评估的效率。在本实施例中,提供了一种模型质量评估方法,该方法适用于预测终端,如图2a所示,该模型质量评估方法的具体流程可以如下:201、接收评估终端发送的测试数据子集和预测模型。其中,接收评估终端发送的测试数据子集和预测模型的方法多样,比如,通过网络接收评估终端发送的测试数据子集和预测模型,再比如,通过有线通信的方法接收评估终端发送的测试数据子集和预测模型,等等。在一些实施例中,可以接收评估终端发送的携带预测模型和测试数据子集的预测请求,从而获取测试数据子集和预测模型。其中,该预测请求可以携带预测模型和测试数据子集,也可以携带存储了该预测模型和测试数据子集的数据库地址,预测终端可以通过访问该地址获取预测模型和测试数据子集。比如,在一些实施例中,预测请求中可以携带测试数据子集,以及存储预测模型的模型数据库地址,预测终端可以通过访问该模型数据库的地址来获取预测模型。在一些实施例中,为了防止还未准备好接收评估终端发送的测试数据子集和预测模型,该测试数据子集中包括至少一个测试数据故评估终端发送的测试数据子集和预测模型之前,可以具体包括以下步骤:确定当前的启动状态和数据获取状态;根据当前的启动状态和数据获取状态向评估终端发送启动状态信息和数据获取状态信息。其中,启动状态信息可以包括预测终端当前的启动状态,该启动状态可以包括开启状态和关闭状态,等等;数据获取状态信息可以包括预测终端当前的数据获取状态,该数据获取状态可以包括等待获取状态和停止获取状态,等等。202、采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值。其中,预测的方法具有多种,比如,通过逻辑回归LogisticRegression、因子分解机FactorizationMachine、深度神经网络DeepNeuralNetwork,DNN等方式进行预测。其中,深度神经网络可以包括基于因子分解机的神经网络FactorizationMachineNeuralNetwork,FNN、基于采样的神经网络SamplingNeuralNetwork,SNN,等等。预测对象可以是用户行为指标,比如,点击量、点击率,等等。在以下预测过程中,将以点击量作为预测对象进行描述。比如,在一些实施例中,预测模型是一种基于因子分解机的深度神经网络DeepFactorizationMachine,DeepFM,采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的预测值具体可以包括以下步骤:a.获取预设的数值范围,以及数值范围对应的预设阈值;b.采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的待处理预测值。c.确定待处理预测值所处数值范围。d.根据待处理预测值所处数值范围对应的预设阈值对待处理预测值进行赋值处理,得到测试数据的预测值。其中,获取预设的数值范围,以及数值范围对应的预设阈值的方法有多种,比如,该预设的数值范围,以及数值范围对应的预设阈值可以有本领域技术人员设定,也可以通过网络从数据库获取,还可以读取本地内存来获取,等等;需要注意的是,预测终端获取的预设的数值范围,以及数值范围对应的预设阈值可以和评估终端获取的预设的数值范围,以及数值范围对应的预设阈值相同,也可以不同,在此不做限定。预测终端根据待处理预测值所处数值范围对应的预设阈值对待处理预测值进行赋值处理,得到测试数据的预测值的过程可以参照评估终端,在此不做赘述。在一些实施例中,可以通过Deep&Wide模型一种DeepFM作为预测模型来对测试数据子集中的测试数据进行点击量预测,得到测试数据的待处理预测值,该模型结构示意图可以参考图2b。其中,由图2b可知,deep&wide模型分为Deep部分和Wide部分,将测试数据子集中的测试数据输入FM部分,以及将测试数据子集中的测试数据输入DNN部分后,可以通过FM部分提取低维特征,通过DNN部分提取高维特征,从而使得该模型可以同时考虑测试数据中的低维特征、高维特征。Deep&Wide模型中使用的测试数据的特征包括两大类:一类是连续型特征,主要用于Deep部分的训练;一类是离散型特征,主要用于Wide部分的训练。其中,连续型特征可以包括真值realvalue型特征、嵌入embedding型特征,等等,离散型特征可以包括稀疏sparse型特征、交叉cross型特征,等等。通过Deep&Wide模型进行点击量预测时,由于模型中的权重更新会受到Wide部分和Deep部分对模型训练误差的共同影响,因此该模型预测点击量时可以同时考虑到测试数据中的低维特征和高维特征,且其大小和复杂度可以得到控制,从而提高整体模型的性能以及预测精确度。203、当预测完成时,将测试数据的预测值发送给评估终端。比如,在一些实施例中,当计算得到所有测试数据子集中测试数据的预测值后,可以向评估终端发送预测完成信息,当接收到评估终端返回的获取指令时,将测试数据的预测值发送给评估终端。本申请实施例提供的模型质量评估方案可以应用在各种模型质量评估场景中,比如。以广告点击量预测为例,接收评估终端发送的测试数据子集和广告点击量预测模型;采用Deep&Wide模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的预测值;向评估终端发送预测完成信息;当接收到评估终端的获取指令时,将测试数据的预测值发送给评估终端。采用本申请实施例提供的方案能够得到更加高效地获取精确的广告点击量预测值,进一步降低了根据测试数据计算预测值的运算时间,由此,该方案可以提升预测模型质量评估的效率。由上可知,本申请实施例可以接收评估终端发送的测试数据子集和预测模型;采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的预测值;向评估终端发送预测完成信息;当接收到评估终端的获取指令时,将测试数据的预测值发送给评估终端。由此本方案可以计算测试数据的预测值,降低评估终端的计算量,防止评估终端进行模型质量评估时由于计算量过大导致的机器卡顿、崩溃,由此,该方案可以提升预测模型质量评估的效率根据上述实施例所描述的方法,以下将作进一步详细说明。在本实施例中,将具体应用在广告点击量模型评估场景中、以多个预测终端组成集群来计算测试数据的点击量预测值、评估终端根据这些预测值进行点击量模型质量评估为例,对本发明实施例的方法进行详细说明。参考图3a,广告点击量模型评估的具体流程如下:一评估终端获取广告点击量模型和测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据。其中,该广告点击量模型可以是一种Deep&Wide模型,该测试数据中可以包括广告数据和用户数据。具体地,该广告数据可以包括广告的属性数据和广告位置数据,比如,广告的属性数据可以包括广告内容信息、广告时长、广告投放数量,等等;该广告位置数据可以包括广告在网页上出现的位置信息、在网页上出现的时间信息,等等;用户数据可以包括用户的年龄信息、收入信息、性别信息、学历信息,等等。在一些实施例中,评估终端可以读取本地内存中保存的广告点击量模型,以及通过网络从数据库服务器中获取待预处理的测试数据集,其中,该待预处理的测试数据集中可以包括至少一个待预处理测试数据。由于测试数据中包括多种不同格式的信息,故需要对该待预处理的测试数据集中所有的待预处理测试数据进行数据预处理,得到统一规格的预处理后测试数据集,最后对这些预处理后测试数据集中的预处理后测试数据集进行划分操作,得到测试数据子集。其中,预处理的方法具有多种,比如,通过确定待预处理测试数据的数据类型,然后基于数据类型对待预处理测试数据集中的待预处理测试数据进行数据格式转换,最后得到处理后测试数据集。具体地,参考图3b所示的预处理流程示意图,可以读取待预处理测试数据,分析该待预处理测试数据的数据类型,当该待预处理测试数据为多维向量时,将该待预处理测试数据转换为整数INT型,当该待预处理测试数据为一维向量时,将该待预处理测试数据转换为比特字符串ByteString型,从而通过ProtocolBuffers一种用于对数据进行序列化的数据表述语言将这些待预处理测试数据转换成序列化编码,最后将得到的这些序列封装为数据帧DataFrame格式,得到测试数据集。其中,数据帧的格式示意表可以参考表3,表3中可以包括三个预处理测试数据,该预处理测试数据中均可以包括广告属性数据如广告内容信息、广告位置数据如广告在网页上出现时间、在网页上出现位置、用户数据如用户年龄、用户收入,以及每个预处理测试数据上标注的真实值,该真实值可以表示特定年龄、收入的用户是否点击具有特定内容以及出现时间、出现位置的广告。比如,以编号为00x0的测试数据为例可知,某年龄为x、收入为X的用户点击了内容为A、出现时间为a、出现位置为a’的广告;再比如,以编号为00x1的测试数据为例可知,某年龄为y、收入为Y的用户并未点击内容为B、出现时间为b、出现位置为b’的广告。表3在一些实施例中,评估终端执行完上述的序列化预处理后,得到处理后测试数据集,之后,可以对该处理后测试数据集中的处理后测试数据进行划分操作。比如,以处理后测试数据集中包括100个处理后测试数据为例,评估终端可以按照该100个处理后测试数据编号将其划分为10份,每份中包括10个处理后测试数据,将每10个处理后测试数据作为测试数据子集。譬如,评估终端将编号为0x00~0x09的测试数据划分为测试数据子集1,将编号为0x10~0x19的测试数据划分为测试数据子集2,将编号为0x20~0x29的测试数据划分为测试数据子集3,......将编号为0x90~0x99的测试数据划分为测试数据子集10,等等。二评估终端向终端集群中相应的预测终端发送该广告点击量模型和测试数据子集,以及监听端集群中所有预测终端的预测完成信息。其中,评估终端可以向终端集群中每个预测终端发送相同的广告点击量模型,以及不同的测试数据子集,发送完成后,可以监听端集群中所有预测终端的预测完成信息。比如,在本实施例中,评估终端可以按照终端集群中预测终端的编号顺序,来向这些预测终端发送该广告点击量模型和测试数据子集。比如,以终端集群中包括10个预测终端,且预测终端编号如表4所示为例,可以将上述获得的测试数据子集1、2、3...、10分别发送给这10个预测终端,以及向这10个预测终端发送广告点击量模型,即,将测试数据子集1发送给编号为1的预测终端,将测试数据子集2发送给编号为2的预测终端,......将测试数据子集10发送给编号为10的预测终端,以及,将广告点击量模型发送给这10个预测终端发送广告点击量模型。预测终端预测终端A预测终端B...预测终端C编号12...10表4具体地,在一些实施例中,为了保持预测终端与评估终端之间通信的高效、安全、灵活,评估终端与终端集群中预测终端可以以Spark架构一种数据处理框架来布置,使得评估终端向终端集群中相应的预测终端发送该广告点击量模型和测试数据子集,以及监听端集群中所有预测终端的预测完成信息。其中,Spark架构的组成示意图可以参考图3c,在Spark架构中,终端集群中每个预测终端作为一个工作节点WorkerNode来用作执行器Executor执行多个预测任务Task,该预测任务可以包括任务1:预测终端接收评估终端发送的测试数据子集和广告点击量模型;任务2:预测终端采用该广告点击量模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的点击量预测值;任务3:预测终端向评估终端发送预测完成信息,等等。在一些实施例中,评估终端可以作为集群管理端ClusterManager,来管理、监控每个预测终端的数据接收、任务接收,等等。在另一些实施例中,中转服务器也可以作为集群管理端来管理、监控每个预测终端的数据接收、任务接收,而评估终端作为驱动端DriverProgram,通过与中转服务器通信来管理、监控每个预测终端的数据接收、任务接收。在另一实施例中,评估终端可以由集群管理端和驱动端组成。具体地,在Spark的运行流程示意图可以参考图3d,如图3d所示,具体包括如下步骤:a.构建Spark的运行环境,开启驱动端;b.驱动端申请运行终端集群中工作节点的执行器资源;c.执行器向驱动端申请待执行的任务Task;d.驱动端将预测任务分发给执行器;e.驱动端构建有向无环图DirectedAcyclicGraph,DAG,将DAG图分解成多个步骤Stage,并根据驱动端中的任务调度程序TaskScheduler将任务发送给工作节点的执行器运行;f.执行器运行任务,当运行完成后,执行器释放所有计算资源。三预测终端接收评估终端发送的测试数据子集和广告点击量模型。其中,预测终端接收评估终端发送的测试数据子集和广告点击量模型的具体方式可以参考上述的Spark的运行流程,在此不做赘述。四预测终端采用该广告点击量模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的点击量预测值。比如,预测终端可以采用该广告点击量模型一种Deep&Wide模型来对测试数据子集中的测试数据进行点击量预测,得到测试数据的点击量预测值。其中,具体预测终端的预测过程可以参考步骤202,在此不做赘述。五预测终端向评估终端发送预测完成信息。其中,具体预测终端的向评估终端发送预测完成信息可以参考步骤203,在此不做赘述。六当评估终端当监听到所述预测终端发送的预测完成信息时,评估终端从预测终端中获取测试数据的点击量预测值,并根据终端集群中所有预测终端发送的测试数据的预测值和真实值计算子预测值的测试数据。比如,在一些实施例中,为了规范测试数据子集中的测试数据的精度,使得得到的模型质量参数更加精确,同时降低评估终端计算模型质量参数时的计算量,参考图3e所示的赋值处理流程示意图,评估终端可以将上述从预测终端得到的点击量预测值进行精确度调整,再根据真实值和精确度调整后的点击量预测值进行AUC计算,得到模型质量子参数,最后根据多个模型质量子参数计算模型质量参数。具体地,精确度调整的步骤如下:a.获取预设的数值范围,以及数值范围对应的预设阈值;b.确定测试数据的预测值所处数值范围;c.根据预测值所处数值范围对应的预设阈值对预测值进行赋值处理,得到测试数据的赋值处理后预测值。比如,根据表2提供的预设的数值范围,以及数值范围对应的预设阈值,可以确定测试数据的预测值所处数值范围,例如,假设预测值为0.211,将预测值与表2中的数值范围进行比对可知,该预测值所处的数值范围为0.100,0.255],则将该范围对应的预设阈值0.2对该预测值进行赋值,则赋值处理后预测值为0.2。完成上述的精确度调整后,可以根据所有测试数据的真实值和精确度调整后预测值计算预测模型的模型质量参数。比如,以该模型质量参数为AUC为例,评估终端根据所有测试数据的真实值和精确度调整后预测值计算预测模型的AUC可以参考步骤105,故在此不做赘述。本实施例可以提升预测模型质量评估的效率,具体效果可以参考表5,其中表5所示的是在处理具有不同维度数和类型的测试数据子集时,本发明提供的模型质量评估方法与传统模型质量评估方法所消耗的时间,减少耗时的提升度。其中,维度数是指测试数据子集中多维向量型数据的维度数,种类数是测试数据子集中数据的种类数。维度数种类数传统方法耗时本发明耗时提升度1204805s123s3907%1316134s141s4350%1536134s152s1036%表5除此之外,本发明还可以处理原模型质量评估方法无法处理的大样本模型质量评估,其中,大样本是指样本数据的数量达到百万级。比如,当测试数据子集的数量达到19亿、维度数达到12且种类数为1时,本发明耗时可以约为17分47秒。由上可知,在本实施例中,评估终端可以获取广告点击量模型和测试数据子集,并向终端集群中相应的预测终端发送该广告点击量模型和测试数据子集,然后监听端集群中所有预测终端的预测完成信息,其中,测试数据子集中包括至少一个标注了真实值的测试数据;预测终端可以接收评估终端发送的测试数据子集和广告点击量模型,并采用该广告点击量模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的点击量预测值,最后向评估终端发送预测完成信息;当评估终端当监听到所述预测终端发送的预测完成信息时,评估终端可恶意从预测终端中获取测试数据的点击量预测值,并根据终端集群中所有预测终端发送的测试数据的预测值和真实值计算预测模型的模型质量参数。由此本方案可以通过集群的方式来进行用户行为指标的预测,评估终端不需要根据广告点击量模型计算测试数据的对应的点击量预测值,从而降低了评估终端的计算量,同时,也可以保证广告点击量模型中的权重、偏置等不会改变,使其可以被保存下来待以后使用;除此之外,多个预测终端可以同时进行点击量预测,大大降低了点击量预测所需的时间,由此,该方案可以提升预测模型质量评估的效率。为了更好地实施以上方法,本申请实施例还提供一种模型质量评估装置,该模型质量评估装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。在本实施例中,将以模型质量评估装置具体集成在单一服务器中为例,对本发明实施例的方法进行详细说明。例如,如图4所示,该模型质量评估装置可以包括获取单元401、发送单元402、监听单元403、预测值单元404以及计算单元405如下:一获取单元401:获取单元,用于获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据。在一些实施例中,获取单元401包括获取子单元和划分子单元:获取子单元,用于获取预测模型和测试数据集,测试数据集中包括至少一个标注了真实值的测试数据;划分子单元,用于对测试数据集中的测试数据进行划分操作,得到多个测试数据子集。在一些实施例中,获取子单元具体可以用于:获取预测模型和待预处理测试数据集;确定待预处理测试数据的数据类型;基于数据类型对待预处理测试数据集中的待预处理测试数据进行数据格式转换,得到测试数据集。二发送单元402:发送单元,用于向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测。在一些实施例中,发送单元402具体可以用于:获取预测终端的启动状态信息和数据获取状态信息;根据启动状态信息和数据获取状态信息确定预测终端的启动状态和数据获取状态;当预测终端的启动状态为关闭状态时,开启预测终端;当预测终端的启动状态为开启状态,且数据获取状态为等待获取状态时,将测试数据子集和预测模型发送给预测终端。三预测值单元403:预测值单元403,用于当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值。四分类单元404:分类单元404,用于根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别。在一些实施例中,分类单元404具体可以用于:从终端集群中所有预测终端发送的测试数据的预测值中确定目标预测值;基于目标预测值、测试数据的预测值和真实值对测试数据进行分类。五计算单元405:计算单元,用于根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。在一些实施例中,计算单元405具体可以用于:统计每一种类别在所有类别中所占的比例;基于每一种类别在所有类别中所占的比例计算预测模型的模型质量参数。具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。由上可知,本实施例的模型质量评估装置可以由获取单元获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;由发送单元向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,由预测值单元从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;由分类单元根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;由计算单元根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。由于该方案可以采用集群的方式来进行用户行为指标的预测,将多个测试数据分摊给预测集群中的预测终端,使其进行预测值计算,可以大大降低评估终端获得所有测试数据的预测值所消耗的运算时间,同时降低评估终端的计算量,由此,该方案可以提升预测模型质量评估的效率。为了更好地实施以上方法,本申请实施例还提供一种模型质量评估装置,该模型质量评估装置具体可以集成在电子设备中,其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。在一些实施例中,该模型质量评估装置还可以集成在多个评估终端组成的终端集群中。在本实施例中,将以每个服务器均被该模型质量评估装置集成为例,对本发明实施例的方法进行详细说明。例如,如图5所示,,该模型质量评估装置可以包括接收单元501、预测单元502、发送单元503,如下:一接收单元501:接收单元501,用于接收评估终端发送的测试数据子集和预测模型,测试数据子集中包括至少一个测试数据。二预测单元502:预测单元502,用于采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值。为了降低预测值的分布范围,从而降低存储、发送预测值所需的计算资源,在一些实施例中,可以规范预测值的数值范围,预测单元502可以具体用于:获取预设的数值范围,以及数值范围对应的预设阈值;采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的待处理预测值;确定待处理预测值所处数值范围;根据待处理预测值所处数值范围对应的预设阈值对待处理预测值进行赋值处理,得到测试数据的预测值。三发送单元503:发送单元503,用于当预测完成时,将测试数据的预测值发送给评估终端。具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。由上可知,本实施例的模型质量评估装置由接收单元获取预设的数值范围,以及数值范围对应的预设阈值;由预测单元采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值;当预测完成时,由发送单元将测试数据的预测值发送给评估终端。由于本方案可以降低预测值的分布范围,从而降低存储、发送预测值所需的计算资源,由此,该方案可以提升预测模型质量评估的效率。本申请实施例还提供一种评估终端,该评估终端可以是服务器、个人电脑、手机、平板电脑、微型处理盒子、无人机、或者数据处理设备等等。如图6所示,其示出了本申请实施例所涉及的评估终端的结构示意图,具体来讲:该评估终端可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603、输入模块604以及通信模块605等部件。本领域技术人员可以理解,图4中示出的评估终端结构并不构成对评估终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:处理器601是该评估终端的控制中心,利用各种接口和线路连接整个评估终端的各个部分,通过运行或执行存储在存储器602内的软件程序和或模块,以及调用存储在存储器602内的数据,执行评估终端的各种功能和处理数据,从而对评估终端进行整体监控。在一些实施例中,处理器601可包括一个或多个处理核心;在一些实施例中,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序比如声音播放功能、图像播放功能等等;存储数据区可存储根据评估终端的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。评估终端还包括给各个部件供电的电源603,在一些实施例中,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该评估终端还可包括输入模块604,该输入模块604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该评估终端还可包括通信模块605,在一些实施例中通信模块605可以包括无线模块,评估终端可以通过该通信模块605的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块605可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。尽管未示出,评估终端还可以包括显示单元等,在此不再赘述。具体在本实施例中,评估终端中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;通过通信模块605向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。由上可知,在本申请中,评估终端采用集群的方式来进行用户行为指标的预测,通过通信模块将多个测试数据分摊给预测集群中的预测终端,使其进行预测值计算,可以大大降低评估终端获得所有测试数据的预测值所消耗的运算时间,同时降低评估终端的计算量,由此,该方案可以提升预测模型质量评估的效率。本申请实施例还提供一种预测终端,该预测终端可以是服务器、个人电脑、手机、平板电脑、微型处理盒子、无人机、或者图像采集设备等等。具体地,该预测终端的结构可以类似于评估终端,比如,包括一个或者一个以上处理核心的处理器、一个或一个以上计算机可读存储介质的存储器、电源、输入模块以及通信模块等部件。在一些实施例中,为了提高计算预测值的效率,可以由终端集群来计算所有预测数据的预测值,其中,终端集群可以包括多个预测终端,预测终端中的处理器可以按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器中,并由处理器来运行存储在存储器中的应用程序,从而实现各种功能,如下:预测终端通过通信模块接收评估终端发送的测试数据子集和预测模型;采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的预测值;向评估终端发送预测完成信息;当接收到评估终端的获取指令时,将测试数据的预测值发送给评估终端。其中,预测终端的具体结构可以参加前面评估终端的实施例,在此不做赘述。由上可知,本实施例可以通过接收评估终端发送的测试数据子集和预测模型;采用预测模型对测试数据子集中的测试数据进行点击量预测,得到测试数据的预测值;向评估终端发送预测完成信息;当接收到评估终端的获取指令时,将测试数据的预测值发送给评估终端。由此,在本实施例,终端集群中的每个预测终端都可以进行用户行为指标的预测,从而降低计算所有测试数据的预测值所消耗的运算时间,由此,该方案可以提升预测模型质量评估的效率。本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种模型质量评估方法中的步骤。例如,该指令可以执行如下步骤:获取预测模型和多个测试数据子集,测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带预测模型和测试数据子集的预测请求,其中,预测请求用于指示预测终端采用预测模型对测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对测试数据进行分类,得到多个测试数据子集中测试数据所属的类别;根据多个测试数据子集中测试数据所属的类别计算预测模型的模型质量参数。在一些实施例中,存储介质中存储的指令还可以执行如下步骤:接收评估终端发送的测试数据子集和预测模型,测试数据子集中包括至少一个测试数据;采用预测模型对测试数据子集中的测试数据进行预测,得到测试数据的预测值;当预测完成时,将测试数据的预测值发送给评估终端。其中,该存储介质可以包括:只读存储器ROM,ReadOnlyMemory、随机存取记忆体RAM,RandomAccessMemory、磁盘或光盘等。由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种模型质量评估方法中的步骤,因此,可以实现本申请实施例所提供的任一种模型质量评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上对本申请实施例所提供的一种模型质量评估方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
权利要求:1.一种模型质量评估方法,其特征在于,适用于评估终端,包括:获取预测模型和至少两个测试数据子集,所述测试数据子集中包括至少一个标注了真实值的测试数据;向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,其中,所述预测请求用于指示所述预测终端采用所述预测模型对所述测试数据子集中的测试数据进预测;当终端集群中预测终端完成预测时,从预测终端中获取所述测试数据的预测值,得到每个测试数据子集中测试数据的预测值;根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别;根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数。2.如权利要求1所述的模型质量评估方法,其特征在于,根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数,包括:统计每一种类别在所有类别中所占的比例;基于每一种类别在所有类别中所占的比例计算所述预测模型的模型质量参数。3.如权利要求1所述的模型质量评估方法,其特征在于,根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,包括:从终端集群中所有预测终端发送的测试数据的预测值中确定目标预测值;基于所述目标预测值、测试数据的预测值和真实值对所述测试数据进行分类。4.如权利要求1所述的模型质量评估方法,其特征在于,获取预测模型和至少两个测试数据子集,包括:获取预测模型和测试数据集,所述测试数据集中包括至少一个标注了真实值的测试数据;对所述测试数据集中的测试数据进行划分操作,得到至少两个测试数据子集。5.如权利要求4所述的模型质量评估方法,其特征在于,获取预测模型和测试数据集,包括:获取预测模型和待预处理测试数据集;确定所述待预处理测试数据的数据类型;基于所述数据类型对所述待预处理测试数据集中的待预处理测试数据进行数据格式转换,得到测试数据集。6.如权利要求1所述的模型质量评估方法,其特征在于,所述从预测终端中获取所述测试数据的预测值,还包括:获取预设的数值范围,以及所述数值范围对应的预设阈值;确定所述测试数据的预测值所处数值范围;根据所述预测值所处数值范围对应的预设阈值对所述预测值进行赋值处理,得到所述测试数据的赋值处理后预测值。根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别,包括:根据所述测试数据的赋值处理后预测值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别。7.如权利要求1~6任一项所述的模型质量评估方法,其特征在于,向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,包括:获取预测终端的启动状态信息和数据获取状态信息;根据所述启动状态信息和数据获取状态信息确定预测终端的启动状态和数据获取状态;当所述预测终端的启动状态为关闭状态时,开启所述预测终端;当所述预测终端的启动状态为开启状态,且所述数据获取状态为等待获取状态时,向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求。8.一种模型质量评估方法,其特征在于,适用于预测终端,包括:接收评估终端发送的测试数据子集和预测模型,所述测试数据子集中包括至少一个测试数据;采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的预测值;当预测完成时,将所述测试数据的预测值发送给评估终端。9.如权利要求8所述的模型质量评估方法,其特征在于,采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的预测值,包括:获取预设的数值范围,以及所述数值范围对应的预设阈值;采用所述预测模型对所述测试数据子集中的测试数据进行预测,得到测试数据的待处理预测值;确定所述待处理预测值所处数值范围;根据所述待处理预测值所处数值范围对应的预设阈值对所述待处理预测值进行赋值处理,得到测试数据的预测值。10.一种模型质量评估装置,其特征在于,包括:获取单元,用于获取预测模型和至少两个测试数据子集,所述测试数据子集中包括至少一个标注了真实值的测试数据;发送单元,用于向终端集群中相应的预测终端发送携带所述预测模型和测试数据子集的预测请求,其中,所述预测请求用于指示所述预测终端采用所述预测模型对所述测试数据子集中的测试数据进预测;预测值单元,用于当终端集群中预测终端完成预测时,从预测终端中获取所述测试数据的预测值,得到每个测试数据子集中测试数据的预测值;分类单元,用于根据测试数据的预测值和真实值对所述测试数据进行分类,得到所述测试数据子集中测试数据所属的类别;计算单元,用于根据所述测试数据子集中测试数据所属的类别计算所述预测模型的模型质量参数。
百度查询: 腾讯科技(深圳)有限公司 模型质量评估方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。