买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明属于数据事务处理技术领域,公开了一种基于HDFS的ETL增量数据事务处理方法及系统,提供一种异步增量的HDFS文件数据合并服务,从而实现HDFS系统的文件数据增量过滤的能力,在保证原服务不中断的前提下达到重复数据的增量合并。提案中提出的内存增量化合并模型需要在尽压缩硬件资源耗费的前提下同时达到更高效的数据合并处理能力。本发明设定了更优的内存数据索引目录与血缘信息记录,使之在保证高效的前提下同时提供了跟踪工具,同时在增量化的数据回存原HDFS分区时提供了事务化保证了数据的安全性。
主权项:1.一种基于HDFS的ETL增量数据事务处理方法,其特征在于,包括以下步骤:步骤一,通过海通大数据平台的数据接入能力将数据文件在基础时间分区的前提下添加摘要哈希分区,保证重复数据的记录处于同一哈希分区下;步骤二,在海通平台完接入后,由增量比对模型针对每一个哈希算法分区的数据文件分批读入模型内存中并以特性的索引的结构暂存;步骤三,内存的模型索引结构以数据关键字段与HDFS分区文件信息与文件行标三者共同构成索引目录,为实现高效内存模型摘要数据二次读取转存临时文件提供基础条件;步骤四,将临时目录中的经由内存模型增量化后的数据文件替换原HDFS分区中未经过滤的数据;同时在上述内存模型服务运行过程中为数据生成血缘关系信息。
全文数据:
权利要求:
百度查询: 南威软件股份有限公司 一种基于HDFS的ETL增量数据事务处理方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。