首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Flink实现Binlog到HIVE的实时采集方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州玳数科技有限公司

摘要:本发明提供一种基于Flink实现Binlog到HIVE的实时数据采集方法和系统,方法包括:建立FlinkJob;在FlinkJob的初始化阶段配置并订阅数据源的Binlog增量日志信息;在FlinkJob的数据读取阶段对Binlog增量日志信息进行解析,以转换为数据对象;在FlinkJob的数据写入阶段,根据数据库信息和需要订阅的Binlog的表名信息获取表结构信息,并根据表结构信息创建HIVE分区表,获取HIVE分区表对应的分布式系统下的存储路径,实现数据对分布式系统的直接写入。本发明基于Flink计算框架,通过采集数据源的Binlog增量日志信息,并解析日志信息将数据通过分布式文件系统的方式写入到HIVE数据源之中,同时支持多个HIVE数据库表的同时写入操作,从而实现了高性能、低延迟的流式数据处理方式,实现Binlog到HIVE的数据的实时采集。

主权项:1.一种基于Flink实现Binlog到HIVE的实时数据采集方法,其特征在于,包括以下步骤:建立所述FlinkJob,并在所述FlinkJob的初始化阶段,配置并订阅数据源的Binlog增量日志信息;在所述FlinkJob的数据读取阶段,对所述Binlog增量日志信息进行解析,以转换为数据对象,其中,所述数据对象包括:数据库信息和表名信息;在所述FlinkJob的数据写入阶段,根据所述数据库信息和需要订阅的Binlog的表名信息获取表结构信息,并根据所述表结构信息创建HIVE分区表,以及获取所述HIVE分区表对应的分布式系统下的存储路径,实现数据对分布式系统的直接写入,所述根据所述表结构信息创建HIVE分区表,以及获取所述HIVE分区表对应的分布式系统下的存储路径,实现数据对分布式系统的直接写入,包括:配置所述HIVE数据源信息,其中,所述HIVE数据源信息包括:HIVEJDBC连接信息、HIVE库名、分区字段、HDFS配置信息;通过所述HIVEJDBC创建HIVE分区表,并获取分区表所对应的分布式文件系统的文件路径;根据待传输的所述数据对象、所述HDFS配置信息、所述文件路径,将所述数据写入分布式文件系统中,其中,写入的数据暂存于所述文件路径下的临时目录之中,在所述FlinkJob的初始化阶段,还包括:通过所述FlinkJob的CheckPoint功能获取上一次数据采集时保存的偏移量信息;对所述Binlog日志订阅的位置进行修正,以实现数据续传,在所述FlinkJob的数据读取阶段,还包括:通过所述FlinkJob的CheckPoint记录对所述Binlog增量日志信息进行解析时的日志消费的偏移量,以支持任务在下一次开始时进行数据续传,当所述CheckPoint功能被触发时,将所述临时目录中暂存的数据对象转移至所述HIVE分区表的文件路径中。

全文数据:

权利要求:

百度查询: 杭州玳数科技有限公司 基于Flink实现Binlog到HIVE的实时采集方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。