买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京科杰科技有限公司
摘要:本发明涉及数据处理技术领域,尤其涉及一种基于Spark‑SQL语句特性的自动资源分配优化方法,包括以下步骤:对历史Spark‑SQL任务的资源数据进行采样,对采样后得到的若干资源数据依次进行预处理和特征提取;使用所述资源分配模型对Spark‑SQL语句进行资源分配,收集资源分配模型的运行特征数据以对资源分配模型进行优化;将所述资源分配模型配置到Hadoop集群中,对Spark‑SQL任务进行资源分配优化;基于实际输出与标准输出的资源分配方案数据量的差异量对资源分配优化的准确性进行判定;在二次判定特征提取的准确性不符合要求时确定特征提取的自学习周期;基于资源数据的平均处理时长对特征提取的自学习周期进行二次调节。本发明实现了对于资源分配优化的准确性的提高。
主权项:1.一种基于Spark-SQL语句特性的自动资源分配优化方法,其特征在于,包括以下步骤:对历史Spark-SQL任务的资源数据进行采样,对采样后得到的若干资源数据依次进行预处理和特征提取,对特征和对应的资源分配方案进行训练以生成资源分配模型;使用所述资源分配模型对Spark-SQL语句进行资源分配,收集资源分配模型的运行特征数据以对资源分配模型进行优化;将所述资源分配模型配置到Hadoop集群中,对Spark-SQL任务进行资源分配优化;基于实际输出与标准输出的资源分配方案数据量的差异量对资源分配优化的准确性进行判定:在判定资源分配优化的准确性不符合要求时,对资源数据分区种类的数量进行调节,或,在初步判定特征提取的准确性不符合要求时根据资源分配模型的平均更新速度对特征提取的准确性进行二次判定;在二次判定特征提取的准确性不符合要求时,调节特征提取的自学习周期,或,基于所述资源分配模型的平均更新速度和资源数据采样的错误次数占比确定资源数据样本字节量的存储容量占比;基于确定的所述自学习周期对资源数据进行提取以获取若干处理周期内资源数据的处理时长;基于资源数据的平均处理时长对特征提取的自学习周期进行二次调节;其中,资源数据包括Spark-SQL任务的类型数量、Spark-SQL任务的数量、处理Spark-SQL任务所需的运行存储容量;特征提取的自学习周期的含义为资源分配模型针对训练数据中没有的资源数据进行特征提取时定期扩充特征提取种类的时间间隔;特征提取种类包括数据集特征、查询历史特征、访问模式特征;对资源数据进行提取的特征包括资源数据中的数据表的大小、JOIN操作数量、子查询深度;资源分配方案的含义为资源分配模型针对Spark-SQL任务输出的最佳资源分配方案;运行特征数据包括对Spark-SQL任务的执行时间、资源利用率、读取的资源数据量;分配资源模型为决策树、随机森林、支持向量机、神经网络;资源数据分区的种类包括数据分片分区、数据块分区、CPU资源分区;标准输出的资源分配方案数据量的含义为资源分配模型针对资源数据进行更新训练的过程中没有出现数据丢失错误从而输出的资源分配方案的数据量。
全文数据:
权利要求:
百度查询: 北京科杰科技有限公司 基于Spark-SQL语句特性的自动资源分配优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。