恭喜南京逸智网络空间技术创新研究院有限公司宋爱波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京逸智网络空间技术创新研究院有限公司申请的专利Spark SQL多表连接优化方法、装置、计算机设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113407532B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110570663.7,技术领域涉及:G06F16/22;该发明授权Spark SQL多表连接优化方法、装置、计算机设备和存储介质是由宋爱波;付豪;方效林;杨明设计研发完成,并于2021-05-25向国家知识产权局提交的专利申请。
本Spark SQL多表连接优化方法、装置、计算机设备和存储介质在说明书摘要公布了:本申请涉及一种SparkSQL多表连接优化方法、装置、计算机设备和存储介质。该方法包括:获取根据目标数据仓库设计的SQL多表连接查询语句集;将SQL多表连接查询语句集划分为训练集和测试集;根据训练集和测试集,对预先构建的马尔可夫决策模型进行训练,获得目标数据仓库的多表连接查询计划选择策略;根据多表连接查询计划选择策略,对目标数据仓库的数据表进行连接。解决了SparkSQL现有的查询优化在多表连接查询计划选择时效率低、依赖开发人员经验的问题,能够快速有效地构建多表连接查询执行计划,从而提高SparkSQL执行效率。
本发明授权Spark SQL多表连接优化方法、装置、计算机设备和存储介质在权利要求书中公布了:1.一种SparkSQL多表连接优化方法,其特征在于,所述方法包括:获取根据目标数据仓库设计的SQL多表连接查询语句集;将所述SQL多表连接查询语句集划分为训练集和测试集;根据所述训练集和所述测试集,对预先构建的马尔可夫决策模型进行训练,获得所述目标数据仓库的多表连接查询计划选择策略;根据所述多表连接查询计划选择策略,对所述目标数据仓库的数据表进行连接;构建所述马尔可夫决策模型的方式为:将Spark程序输入的SQL多表连接查询语句与数据仓库信息结合,以连接树的形式抽象为马尔可夫决策模型的状态特征;将SparkSQL原有的逻辑计划选择和物理计划选择两个阶段结合,重新设计了计划选择方法,并抽象为马尔可夫决策模型的动作特征;根据SparkSQL连接的物理实现,设计用于评估执行动作的时间代价的时间代价模型,作为马尔可夫决策模型的奖励;根据所述状态特征、所述动作特征和所述奖励,构建所述马尔可夫决策模型;所述将Spark程序输入的SQL多表连接查询语句与数据仓库信息结合,以连接树的形式抽象为马尔可夫决策模型的状态特征的步骤,包括:将Spark程序输入的SQL多表连接查询语句与数据仓库信息结合,以各连接树的形式表示对应的数据表,所述连接树的特征以向量的形式表示为: 其中,前m位是以独热编码的形式表示的连接树中包含的连接键,最后一位Ca是连接树执行结果的预估基数,由数据仓库提供的基数估计器获取;由各所述连接树组成的森林,表示为马尔可夫决策模型的状态特征;所述将SparkSQL原有的逻辑计划选择和物理计划选择两个阶段结合,重新设计了计划选择方法,并抽象为马尔可夫决策模型的动作特征的步骤,包括:从所述状态特征的森林中选取两个连接树L和R进行连接,并指定连接物理实现方法pa,表示为向量的形式[L,R,pa],作为马尔可夫决策模型的动作特征;其中,L代表连接左表,R代表连接右表,pa代表连接物理实现方法。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京逸智网络空间技术创新研究院有限公司,其通讯地址为:210012 江苏省南京市雨花台区大周路34号科创城B3栋第8层及第7层702、703室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。