一种基于hudi的增量数据融合方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江锦智人工智能科技有限公司

摘要：本发明公开了一种基于hudi的增量数据融合方法，S0:定义数据融合需要的playload及处理逻辑，本方案已定义了一套playload开发规范，并基于规范实现了max、min、sum、count、avg、多值、优先级等计算逻辑，以上计算逻辑均为主键聚合后求对应的值，合并计算逻辑可根据需求按照规范自由扩展，按需实现；S1：根据业务需要确定hudi的表类型，可以为cow表或mor表,然后将所需的全量数据从源端同步到hudi库，所需的全量数据同步到hudi库的过程为全量初始化数据，此过程完成后即形成了数据融合的基础库。该基于hudi的增量数据融合方法，将数据融合分为两个环节，第一步融合由自定义的payload实现，提供广泛的融合规则和配置；第二步融合借助自定义payload的规则，其特征是利用Hudi自身的机制完成。

主权项：1.一种基于hudi的增量数据融合方法，其特征在于，包括以下步骤：S0:定义数据融合需要的playload及处理逻辑，本方案已定义了一套playload开发规范，并基于规范实现了max、min、sum、count、avg、多值、优先级等计算逻辑，以上计算逻辑均为主键聚合后求对应的值，合并计算逻辑可根据需求按照规范自由扩展，按需实现；S1：根据业务需要确定hudi的表类型，可以为cow表或mor表，然后将所需的全量数据从源端同步到hudi库，所需的全量数据同步到hudi库的过程为全量初始化数据，此过程完成后即形成了数据融合的基础库；S2：对输入的多来源的流式或批式数据进行基础处理，以保证本批次写入的数据格式一致；S3：按照既定的数据融合规则，执行数据的融合过程，保证输出数据中相同key的数据有且仅有一条；S4:将上一步的融合后的数据结果L5直接写入hudi的分区表，分区为key字段的hashcode求模取余值，当hudi中存在历史数据时，payload会自动进行数据的二次融合，并将最终计算结果写入HDFS，其中二次融合由hudi的自身机制触发并保证执行结果的正确性。例如，待处理数据为S＝{[‘123’,’A1’,’9’,’4’,’1’]},hudi分区表的历史数据为{[‘123’,’A’,’7’,’6’,’1’]}，其对应的字段分别为key，属性A，属性B，属性C和优先级数字越小优先级越高，融合的规则为对属性A执行优先级融合，对属性B执行最大值融合，对属性C求和，则执行过程为：1.对属性A计算优先级融合，则融合后属性A的值为A，因为历史数据的优先级最高，融合属性A时取第一行该列的值；2.对属性B计算最大值融合，则融合后属性B的值为9，因为待处理数据属性B的值最大，融合属性B时取输入数据该列的值；3.对属性C计算求和融合，则融合后属性C的值为10，因为历史数据和待处理数据的属性C都有值，融合属性C时取历史数据和待处理数据该列的值的和；4.因此，针对key相同的数据，融合后的结果为[‘123’,’A’,’9’,’10’,’1’]，对应的字段分别为key，属性A，属性B，属性C和优先级数字越小优先级越高。其写入流程为：S4.1先对records按照recordkey去重；S4.2首先对这批数据创建索引HoodieKey＝HoodieRecordLocation,根据recordkey和分区路径构建索引；通过索引区分哪些records是update，哪些records是insertkey第一次写入；S4.3对于update消息，会直接找到对应key所在的最新FileSlice的base文件，并做merge后写新的basefile新的FileSlice。S4.4对于insert消息，会扫描当前partition的所有SmallFile小于一定大小的basefile，然后merge写新的FileSlice，如果没有SmallFile，直接写新的FileGroup+FileSlice；S5：依据hudi的时间轴功能获取最新数据同步到其他供业务进行查询；S6：当再有数据到达时，重复以上S1～S5的步骤进行处理，以形成新的融合结果存入HDFS并分发到对应的业务库。

全文数据：

权利要求：

百度查询：浙江锦智人工智能科技有限公司一种基于hudi的增量数据融合方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种膨化食品加工用粉碎装置

下一篇：一种多光子显微镜中光亮强度的自动调节装置

相关技术

一种膨化食品加工用粉碎装置

一种多光子显微镜中光亮强度的自动调节装置

塔式光热发电背板冲压平直度仿真模拟评价方法

ZnO/石墨烯复合材料、Zn杂化石墨烯阻燃环氧丙烯酸酯涂层及制备方法

化合物、有机电致发光元件用材料、有机电致发光元件和电子设备

一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

适用于不同功能空间声场控制的音频处理系统及方法

一种商用电动汽车充电效率提升的装置及方法

电信网元实时处理方法、装置、设备、介质及程序产品

App自测试系统、方法、电子设备及存储介质

一种炉头自动生产线及其工艺

一种1-溴乙基乙酸酯的制备方法

数据相关技术

数据写入方法、数据写入组件和数据写入装置_杭州长川科技股份有限公司_202410867512.1

数据处理方法、数据处理装置、数据采集装置与车辆_小米汽车科技有限公司_202411449246.7

一种基于数据模型的跨数据库数据同步方法_中科天玑数据科技股份有限公司_202411228573.X

构建数据的方法和装置以及数据库之间同步数据的系统_北京沃东天骏信息技术有限公司_202010181867.7

数据匿名方法与数据匿名系统_财团法人工业技术研究院_202010401584.9

数据开发中的增量数据离线同步方法_杭州观远数据有限公司_202411110714.8

数据处理方法及数据处理装置_联想(北京)有限公司_202411139414.2

数据收集装置、程序及数据收集方法_古河电气工业株式会社_202380032073.6

数据的写入方法及其数据存储装置_慧荣科技股份有限公司_202010777138.8

地图数据以及地图数据的生成方法_爱知制钢株式会社_202080079988.9

hudi相关技术

一种基于Hudi的增量数据自动化迁移方法_浪潮云信息技术股份公司_202410918558.1

一种面向多源异构数据的Hudi数据摄取方法及系统_山东省计算中心(国家超级计算济南中心)_202410961286.3

一种面向多源异构数据的Hudi数据摄取方法及系统_山东省计算中心(国家超级计算济南中心)_202410961286.3

一种基于hudi的增量数据融合方法_浙江锦智人工智能科技有限公司_202310053229.0

Hudi数据湖索引的创建方法、使用方法及相关产品_中国农业银行股份有限公司_202410227391.4

一种基于flink cdc技术同步批量表到hudi的方法_天翼云科技有限公司_202311708917.2

一种基于flink按事件时间升序增量查询hudi表的方法_天翼云科技有限公司_202311632016.X

一种基于热点预测的Hudi异步数据聚类的方法和系统_山东省计算中心(国家超级计算济南中心)_202311661689.8

一种基于热点预测的Hudi异步压缩的方法和系统_山东省计算中心(国家超级计算济南中心)_202311223122.2

基于自定义索引的HUDI数据写入方法及装置_上海柯林布瑞信息技术有限公司_202311270624.0

方法相关技术

塔吊设备及其安装方法、控制方法_中国长江三峡集团有限公司_202310938789.4

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300302.0

配制方法_诺和诺德股份有限公司_202380032098.6

学习系统、确定系统和预测系统以及学习方法、确定方法和预测方法_富士胶片株式会社_202380031812.X

层叠设计方法、焊接条件设定方法、焊接控制方法、焊接控制装置及焊接系统_日商神钢机器人股份有限公司_202280095094.8

喷浆方法_徐州吉安矿业科技有限公司_202411091708.2

光学模块的调整方法以及检查方法_松下知识产权经营株式会社_202380033876.3

高粘度废酸过滤处理方法、反冲洗方法_深圳瑞赛环保科技有限公司_202411109671.1

汽车玻璃的设计方法、控制方法和车辆_中国第一汽车股份有限公司_202410996170.3

资源配置方法、资源发送方法、资源测量方法及电子设备_成都爱瑞无线科技有限公司_202411141003.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于hudi的增量数据融合方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务