买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏守正耘创大数据科技有限公司
摘要:本发明公开一种自感知数据转换与质控的数据采集实现系统、方法及介质,属于大数据处理技术领域。系统包括业务系统数据库、中心数据库和数据采集器,通过元数据标准表、元数据标准业务字典库与元数据标准质控库,建立基于元数据字段的自动感知分析数据链,根据此分析数据链,并利用通用工具集中程序自动匹配数据值转换与数据质控相关规则,实现依据元数据字段名自动感知的数据标准化值转换与数据质量控制。随着本系统收录的标准规则库记录增加,用户配置工作就会越少,这极大减少用户规则配置工作,同时实现上传到中心平台的数据标准化归一化程度更高,数据质量也会更高。本发明可应用于各类结构数据采集,具有广泛的应用前景。
主权项:1.一种自感知数据转换与质控的数据采集实现方法,其特征在于:通过元数据标准表、元数据标准业务字典库与元数据标准质控库,建立基于元数据字段的自动感知分析数据链,根据此分析数据链,并利用通用工具集中程序自动匹配数据值转换与数据质控相关规则,实现依据元数据字段名自动感知的数据标准化值转换与数据质量控制,具体包括以下步骤:步骤1:数据值转换与数据质控初始查看与设置;步骤2:制定数据采集计划;步骤3:数据采集计划执行;具体实现过程如下:步骤301,数据采集器轮循待执行计划列表,检测到可执行计划;步骤302,为检测自动创建本计划执行单元,为本计划构建执行引擎实例与状态机,同时生成唯一计划执行批次标识,并将此计划移到执行中计划列表;步骤303,当前计划的执行引擎装载计划,解析各项任务取数脚本,解析结果集字段与元数据字段的映射关系,同时构建各任务的状态机与取数执行线程;步骤304,执行引擎启动,按任务列表启动取数执行线程,改变任务执行状态;步骤305,某任务取数执行线程先取数并将取数结果列转成元数据字段英文名,改变任务执行状态;步骤306,根据转换后的列名,自动匹配相应的规则进行标准化值转换,改变任务执行状态;步骤307,在数据值标准化后,将数据输入数据缓存区,改变任务执行状态;步骤308,启动质控引擎,改变任务执行状态;步骤309,质控引擎根据列名自动匹配相应的质控规则,对结果集所有记录逐条逐字段进行质控,并输出质控结果,改变任务执行状态;步骤310,待计划中所有任务执行完成,汇总分析质控达标率及质控报告;步骤311,判断当前批次数据质控合规率是否达标,若达标上传数据到中心库中;数据质控合规率计算方法的计算方法为: ;式中,Pq表示质控合规率,Sq表示质控合规总数,Sa表示质控总数;其中,质控总数的计算方法为: ;式中,Tai表示某元数据表的质控总数; ;式中,Fai表示某源数据字段的质控点数,M表示当前元数表主数据表的记录数;Sq的获取方法为:Sq)=直接从质控结果集中汇总所得。
全文数据:
权利要求:
百度查询: 江苏守正耘创大数据科技有限公司 自感知数据转换与质控的数据采集实现系统、方法及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。