恭喜长春理工大学杨迪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜长春理工大学申请的专利并行池塘采样动态一致性hash分区处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114327893B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111628827.3,技术领域涉及:G06F9/50;该发明授权并行池塘采样动态一致性hash分区处理方法及系统是由杨迪;赵家伟;王鹏;李松江;任志鹏;董明设计研发完成,并于2021-12-28向国家知识产权局提交的专利申请。
本并行池塘采样动态一致性hash分区处理方法及系统在说明书摘要公布了:本发明涉及一种并行池塘采样动态一致性hash分区处理方法及系统。所述方法包括:采用并行池塘采样算法进行并行数据采样,并利用心跳机制计算每个节点的处理速度;根据每个节点的处理速度,采用动态一致性hash分区策略进行数据分配,将待处理数据分配到对应Reduce节点上进行数据处理。本发明针对MapReduce框架中的异构性问题,提出了一种两阶段分区策略,该策略在第一阶段采用并行池塘采样算法对数据进行采样并求出各节点的处理速度,在第二阶段使用动态一致性hash分区策略进行数据分配,根据节点处理速度设置虚拟节点,让速度更快的节点处理的数据更多,从而提高了MapReduce框架在异构环境下的整体运行效率和各Reduce节点利用率,解决了异构环境下Reduce节点负载均衡问题。
本发明授权并行池塘采样动态一致性hash分区处理方法及系统在权利要求书中公布了:1.一种并行池塘采样动态一致性hash分区处理方法,其特征在于,包括: 采用并行池塘采样算法进行并行数据采样,获得采样后数据; 所述采用并行池塘采样算法进行并行数据采样,获得采样后数据,具体包括: 设置所述并行池塘采样算法的采样率以及最大采样分区数; 通过InputFormat组件读取分区信息splits数组; 根据所述最大采样分区数和所述splits数组中的总分区数确定采样分区数; 根据所述采样率和所述采样分区数计算每个分区需要采样的数目; 根据所述每个分区需要采样的数目在map端每个分区中进行并行采样,生成采样后数据; 设置并行池塘采样算法的采样率samprobablity以及最大采样分区数maxSplits,用来控制具体采样的数据量;其中采样率samprobablity代表采样的数据占总数的比例,最大采样分区数maxSplits代表当数据进入Map阶段进行数据分片后采样的片数; 通过InputFormat组件读取全部分片信息splits数组,splits数组代表着经过Map阶段分片后得到的全部分片信息,并新建采样数据集合samples存储采样数据; 采样分区数splitsToSample的计算公式如下: splitsToSample=Math.minmaxSplits,splits.length 其中splits.length表示splits数组的长度,即总分区数;Math.min表示返回中的较小值; 每个分区需要采样的数目计算公式如下: samplesPerSplit=dataSum*samprobablitysplitsToSample 其中samplesPerSplit表示每个分区需要采样的数目;dataSum表示整体的数据量总数; 首先取出分区中前samplesPerSplit个数据存入数据集合samples中,接下来对后续的每一个元素进行判断,生成一个1到row的随机数,row代表当前数据行数,若此随机数小于samplesPerSplit,则将此元素进行替换;当分区中的全部元素遍历完成后则采样完成,得到采样后数据; 根据所述采样后数据,利用心跳机制计算每个节点的处理速度; 根据所述每个节点的处理速度,采用动态一致性hash分区策略进行数据分配,将待处理数据分配到对应Reduce节点上进行数据处理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春理工大学,其通讯地址为:130022 吉林省长春市朝阳区卫星路7186号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。