买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天翼云科技有限公司
摘要:本发明公开了一种基于flinkcdc技术同步批量表到hudi的方法,包括以下步骤:步骤一:通过表映射模块负责确定每个源表与hudi表的对应关系,默认情况下,每个源表都会被同步到同名的hudi表;步骤二:通过schema同步模块负责自动创建及更新flinkhudi表,动态从数据源中获取源表的主键和列信息,并根据数据类型映射关系,将源表的列转换为对应的flinksql数据类型的hudi表列,同时结合从外部系统加载的表属性配置,即生成hudi表完整schema信息,最后基于flinkCatalog创建表或更新表结构。本发明通过[schema同步模块]自动根据源表元数据生成hudi表,基于[表映射模块]支持一源表写到多hudi表、多源表写到同一hudi表,实现在同一flink任务中将多源表的数据同步到多hudi表,减少资源消耗。
主权项:1.一种基于flinkcdc技术同步批量表到hudi的方法,其特征在于,包括以下步骤:步骤一:通过表映射模块负责确定每个源表与hudi表的对应关系,默认情况下,每个源表都会被同步到同名的hudi表;步骤二:通过schema同步模块负责自动创建及更新flinkhudi表,动态从数据源中获取源表的主键和列信息,并根据数据类型映射关系,将源表的列转换为对应的flinksql数据类型的hudi表列,同时结合从外部系统加载的表属性配置,即生成hudi表完整schema信息,最后基于flinkCatalog创建表或更新表结构;步骤三:通过数据处理模块负责处理从数据源捕获到的[主数据流],并最终将数据写入各个hudi表,通过分流方式,为每个输出的hudi表创建一个元素类型为Row的[hudi表数据流],在分流的过程中,将一源表的行数据复制到不同的[hudi表数据流],或者将不同源表的行数据添加到相同的[hudi表数据流]中,最终分别将每个[hudi表数据流]转化为flinkTable对象并插入到对应的hudi表中。
全文数据:
权利要求:
百度查询: 天翼云科技有限公司 一种基于flink cdc技术同步批量表到hudi的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。