首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于流式计算的海量数据清洗的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:长江岩土工程有限公司;长江勘测规划设计研究有限责任公司

摘要:本发明基于流式计算的海量数据清洗的方法,包括如下步骤:异构数据源通过数据接入模块统一接入数据,并以统一的格式推送入消息队列Kafka中,等待数据清洗,并将接入情况反馈给调度中心;配置清洗算子和设计算子流程图;计算集群中的计算节点与调度中心通信,调用算子流程图,按照设计的算子流程图的流程进行清洗操作,并将清洗运行情况反馈给调度中心。本发明采用分布式消息队列Kafka统一接入数据,通过Kafka将数据源格式进行统一,方便数据清洗统一处理。多个计算节点采用分布式并列形式部署,能够根据需求动态横向扩展,面对大批量数据有很强的鲁棒性。通过拖拽式设计清洗流程可以满足大部分清洗流程工作,具有很强的通用性。

主权项:1.基于流式计算的海量数据清洗的方法,其特征在于包括如下步骤:1异构数据源通过数据接入模块统一接入数据,并以统一的格式推送入消息队列Kafka中,等待数据清洗,并将接入情况反馈给调度中心;所述统一接入数据格式包括:A:数据的唯一标识uuid;B:数据源的唯一标识nameId;C:数据生成时间戳timestamp;D:字段名fields;E:数据内容datas;2配置清洗算子和设计算子流程图包括A:在调度中心的算子管理界面配置清洗算子;B:根据不同的清洗需求,将各种算子按照一定的顺序连接成的流程为算子流程图;所述算子流程图的节点类型主要包括:1开始节点,标志一个流程的开始;2算子节点,配置不同的算子;3判断节点,配置不同分支判断;4结束节点,标志一个流程的结束;所述设计算子流程图主要步骤包括:1拖拽一个开始节点到画布;2拖拽算子节点到画布,并配置算子类型;3如果有判断节点,拖拽判断节点到画布;4拖拽结束节点到画布;5将所有节点按照算子的流程用线连接起来;6保存算子流程;3计算集群中的计算节点与调度中心通信,调用步骤2中设计的算子流程图,按照设计的算子流程图的流程进行清洗操作,并将清洗运行情况反馈给调度中心;所述步骤3的数据清洗流程是:a:从Kafka消费数据,读取Kafka中的数据叫消费数据;计算节点主动从kafka中拉取消息,从消息中读取的nameId字段;b:判断是否需要清洗,是继续清洗,否结束;调度中心通信判断是否存在nameId,若不存在则跳过该条消息,若存在则进入清洗环节;c:从调度中心读取算子流程图;计算节点根据nameId从调度中心获取算子流程图;d:利用JAVA的反射原理调用相关算子进行清洗操作;e:清洗后的数据进入数据仓库;f:数据清洗入库结果反馈给调度中心;g:结束。

全文数据:

权利要求:

百度查询: 长江岩土工程有限公司 长江勘测规划设计研究有限责任公司 基于流式计算的海量数据清洗的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。