恭喜河钢数字技术股份有限公司郑士良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜河钢数字技术股份有限公司申请的专利一种基于HIVE的数据增量采集方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114647641B 。
龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210368943.4,技术领域涉及:G06F16/215;该发明授权一种基于HIVE的数据增量采集方法是由郑士良;刘威宪;黎荣华;安宝;刘东东;林楠;陈文豪;张夏楠设计研发完成,并于2022-04-08向国家知识产权局提交的专利申请。
本一种基于HIVE的数据增量采集方法在说明书摘要公布了:本发明公开了一种基于HIVE的数据增量采集方法,涉及大数据采集与数据清洗治理技术领域。该基于HIVE的数据增量采集方法在使用时,只需要配置相关的采集任务和sql脚本任务,将sql脚本放入可执行带参数sql脚本的sql执行工具中,只暴露出表名,创建时间,更新时间,主键,原表可能会删除数据的时间段n,用户只需填入这几个关键信息进行sql执行任务配置,即可统一解决以上问题,保证数据的一致性;sql脚本处理流程复用性强,形式灵活,操作简单,将sql脚本放入执行工具,只需填入相关参数,即可进行各类治理,适用于hive库内所有类型的表及表内不同格式的时间字段的情况。
本发明授权一种基于HIVE的数据增量采集方法在权利要求书中公布了:1.一种基于HIVE的数据增量采集方法,其特征在于:包括以下几个参数:${PartDate}:代表昨天的日期,格式为年月日,根据采集工具自身具体对于hive分区采集时的设定参数进行填写;${ods_table_name}:采集至hive的ods表名;${only_id}:确定表唯一的主键的组合值${REC_CREATE_TIME}:时间字段,创建时间;${REC_REVISE_TIME}:时间字段,更新时间;${check_days}:源库会删除数据的时间段,与第二步中采集源库的时间段保持一致,源库会删除30天内的数据,这里的值会设定为30;上述具体实施步骤如下:S1:初始化采集全量数据,适用于初始化采集或者需要重跑全量数据;S2:定时抽取源库在删除时间之内的数据至ods表;S3:对ods表进行sql脚本治理,且治理频率设置为每天,同时定时执行之间设定在第二步执行完毕之后;S4:定时永久存储30210100分区数据;所述步骤S1在进行所述初始化采集全量数据时,第一个是普通任务,抽取全量,放入${PartDate}分区;第二个是sql脚本任务,删除${PartDate}之前所有分区,并将最新全量数据放入_f表,具体脚本如下:首先,抽取全量后删除之前的数据:altertable${ods_table_name}droppartitionpt${PartDate};altertable${ods_table_name}droppartitionpt='30210100';其次,重新抽数,删除表也要重新算数据:truncatetable${ods_table_name}_d;最后,将全量数据放入_f表:SEThive.support.quoted.identifiers=None;insertoverwritetable${ods_table_name}_fselect*from${ods_table_name}。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河钢数字技术股份有限公司,其通讯地址为:050000 河北省石家庄市高新区黄河大道136号科技中心1号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。