基于Flink实现Binlog到HIVE的实时采集方法和系统

导航：龙图腾网> 最新专利技术> 基于Flink实现Binlog到HIVE的实时采集方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州玳数科技有限公司

摘要：本发明提供一种基于Flink实现Binlog到HIVE的实时数据采集方法和系统，方法包括：建立FlinkJob；在FlinkJob的初始化阶段配置并订阅数据源的Binlog增量日志信息；在FlinkJob的数据读取阶段对Binlog增量日志信息进行解析，以转换为数据对象；在FlinkJob的数据写入阶段，根据数据库信息和需要订阅的Binlog的表名信息获取表结构信息，并根据表结构信息创建HIVE分区表，获取HIVE分区表对应的分布式系统下的存储路径，实现数据对分布式系统的直接写入。本发明基于Flink计算框架，通过采集数据源的Binlog增量日志信息，并解析日志信息将数据通过分布式文件系统的方式写入到HIVE数据源之中，同时支持多个HIVE数据库表的同时写入操作，从而实现了高性能、低延迟的流式数据处理方式，实现Binlog到HIVE的数据的实时采集。

主权项：1.一种基于Flink实现Binlog到HIVE的实时数据采集方法，其特征在于，包括以下步骤：建立所述FlinkJob，并在所述FlinkJob的初始化阶段，配置并订阅数据源的Binlog增量日志信息；在所述FlinkJob的数据读取阶段，对所述Binlog增量日志信息进行解析，以转换为数据对象，其中，所述数据对象包括：数据库信息和表名信息；在所述FlinkJob的数据写入阶段，根据所述数据库信息和需要订阅的Binlog的表名信息获取表结构信息，并根据所述表结构信息创建HIVE分区表，以及获取所述HIVE分区表对应的分布式系统下的存储路径，实现数据对分布式系统的直接写入，所述根据所述表结构信息创建HIVE分区表，以及获取所述HIVE分区表对应的分布式系统下的存储路径，实现数据对分布式系统的直接写入，包括：配置所述HIVE数据源信息，其中，所述HIVE数据源信息包括：HIVEJDBC连接信息、HIVE库名、分区字段、HDFS配置信息；通过所述HIVEJDBC创建HIVE分区表，并获取分区表所对应的分布式文件系统的文件路径；根据待传输的所述数据对象、所述HDFS配置信息、所述文件路径，将所述数据写入分布式文件系统中，其中，写入的数据暂存于所述文件路径下的临时目录之中，在所述FlinkJob的初始化阶段，还包括：通过所述FlinkJob的CheckPoint功能获取上一次数据采集时保存的偏移量信息；对所述Binlog日志订阅的位置进行修正，以实现数据续传，在所述FlinkJob的数据读取阶段，还包括：通过所述FlinkJob的CheckPoint记录对所述Binlog增量日志信息进行解析时的日志消费的偏移量，以支持任务在下一次开始时进行数据续传，当所述CheckPoint功能被触发时，将所述临时目录中暂存的数据对象转移至所述HIVE分区表的文件路径中。

全文数据：

权利要求：

百度查询：杭州玳数科技有限公司基于Flink实现Binlog到HIVE的实时采集方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种音视频混合数字多码加密方法

下一篇：一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

相关技术

一种音视频混合数字多码加密方法

一种环境空气甲烷、非甲烷总烃直接测量装置和分析方法

半固态电解质膜及其制备方法、二次电池

一种覆铜板加工用表面整平装置

一种宽组分区间的高性能压电陶瓷及其制备方法

一种智能围棋教学系统

BC电池激光划线设备

一种3D打印仰卧式腰臀穴位点治疗系统及数据采集方法

一种肽功能化纳米酶及其制备方法和应用

一种马铃薯繁育脱毒装置及脱毒方法

一种除湿机热源自动切换控制方法及装置

一种铜光催化未活化卤代烃胺化制备氮烷基化化合物的方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于Flink实现Binlog到HIVE的实时采集方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务