买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学
摘要:本发明公开了ApacheSpark平台性能预测建模方法以及参数配置方法,首先对Spark中的任务进行建模,然后对Spark中的任务执行阶段进行建模,最后运用Adaboost算法对已完成建模的部分进行集成。通过运用Adaboost方法对特定的基于Spark的应用进行建模预测,可以有效地选择最佳参数对Spark平台进行配置。本发明公开了一种基于Adaboost对Spark平台进行建模预测的方法,采用经典的投影抽样方法,允许在小训练样本的情况下满足建模精确度的要求,来对性能进行建模预测,指导参数的选择。
主权项:1.ApacheSpark平台性能预测建模方法,其特征在于,包括:S1:对Spark中的任务进行建模,包括:在Spark默认的调度策略FIFO下,一个Spark应用包含一组相继执行的任务,一个Spark应用执行的总时间等于所有类型任务的执行时间之和;S2:对Spark中的任务执行阶段进行建模,包括:一种类型的任务包含一系列阶段,一系列阶段包括顺序执行的阶段和并行执行的阶段,所有阶段的执行时间和为对应类型任务的执行时间;S3:根据Spark中的任务的建模结果和任务执行阶段的建模结果,运用Adaboost算法对已完成建模的部分进行集成,得到Adaboost模型,并基于Adaboost模型得到ApacheSpark平台性能预测模型;步骤S1中对Spark中的任务进行建模的表示形式为: 代表一个Spark应用中的任务类型数量,表示第i种类型的任务,表示Spark应用,表示任务集合,代表一个Spark应用执行的总时间,是一个用来计算任务执行时间的函数,是计算任务重复执行次数的函数,表示第i种类型的任务的执行时间,表示第i种类型的任务的重复执行次数;步骤S2对Spark中的任务执行阶段进行建模的表示形式为: 为中不同阶段的数目,表示第i种类型的任务,表示第i种类型的任务的第j个阶段,为的阶段集合,指顺序执行任务所花费的总时间,是第i种类型任务的第个类型的阶段的执行时间,是第个类型阶段重复执行的次数,指并行任务执行所花费的总时间,是并行执行阶段中执行路径的数目,r为执行路径的遍历编号,和代表分别代表中和的数目,与分别代表顺序执行任务与并行执行任务的总数目;步骤S3包括:将预设基本的学习算法运用在原始训练数据上,生成弱学习器,保存弱学习器的权重;采用Adaboost算法将每个弱学习器的权重设置为,并且在每一轮训练结束后动态调整每个学习器的权重,其中,表示第个弱学习器的权重,N表示弱学习器的数量;在多轮训练过程结束后,最终得到Adaboost模型,并基于Adaboost模型得到ApacheSpark平台性能预测模型。
全文数据:
权利要求:
百度查询: 武汉大学 Apache Spark平台性能预测建模方法以及参数配置方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。