买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浪潮通用软件有限公司
摘要:本发明公开了一种多源异构湖仓一体化数据处理方法、设备及介质,属于数据集成管理技术领域,用于解决现有的湖仓一体化技术不能很好地将数据仓库与数据湖进行统一融合,各个环节相对独立,难以真正实现湖仓一体化系统的技术问题。方法包括:对数据仓库以及数据湖进行Flink集群配置,得到湖仓一体化系统;根据湖仓一体化系统,对业务数据进行分类配置采集,得到批量采集数据与实时采集数据;根据湖仓一体化系统配置的Flink集群,对湖仓一体化系统进行数据源的引用,得到引用关系;根据引用关系,对批量采集数据与实时采集数据进行数据计算,得到数据计算结果;并将数据计算结果存储于湖仓一体化系统中。
主权项:1.一种多源异构湖仓一体化数据处理方法,其特征在于,所述方法包括:对数据仓库以及数据湖进行Flink集群配置,得到湖仓一体化系统,具体包括:通过Flink数据处理引擎,将Flink集群添加到所述数据仓库以及数据湖中,得到第一配置信息,将ETL服务器中的carte服务进行数据服务的添加,得到第二配置信息,其中,所述数据服务的添加包括:数据流式处理以及批量处理核心引擎,所述核心引擎包括:所述Flink数据处理引擎以及IDI数据处理引擎,将预设数据源端与所述数据仓库以及数据湖进行源端的数据连接,其中,所述数据源端包括:CDC数据源以及Hudi数据源,根据所述第一配置信息、所述第二配置信息以及所述数据源端,对数据仓库以及数据湖进行集群配置,得到配置后的所述湖仓一体化系统;根据所述湖仓一体化系统,对业务数据进行分类配置采集,得到批量采集数据与实时采集数据;根据所述湖仓一体化系统配置的Flink集群,对所述湖仓一体化系统进行数据源的引用,得到引用关系;根据所述引用关系,对所述批量采集数据与实时采集数据进行数据计算,得到数据计算结果;并将所述数据计算结果存储于所述湖仓一体化系统中,具体包括:根据数据源端中数据的基本信息,运行配置后的Flink集群,其中,所述基本信息至少包括:基本数据信息、数据简称以及数据代号,所述数据源端包括:CDC数据源以及Hudi数据源,对所述引用关系中的Flink信息管理表进行表格的识别,得到符合Flink集群中sql类型作业的定义数据表,根据所述定义数据表,将预设Flinksql语句进行数据逻辑计算,得到数据计算任务,其中,所述数据逻辑包括:定义任务并行数、TaskManager配置、checkpoint配置以及异常自动重启配置,启动所述数据计算任务,将所述数据计算任务发送至Flink数据处理引擎,以对所述数据源端中的数据进行实时数据计算,得到所述数据计算结果。
全文数据:
权利要求:
百度查询: 浪潮通用软件有限公司 一种多源异构湖仓一体化数据处理方法、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。