浙江大学巫英才获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利自动检测半结构化数据质量问题的分析系统及分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116795945B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310584325.8,技术领域涉及:G06F16/31;该发明授权自动检测半结构化数据质量问题的分析系统及分析方法是由巫英才;徐新怡;熊凯设计研发完成,并于2023-05-23向国家知识产权局提交的专利申请。
本自动检测半结构化数据质量问题的分析系统及分析方法在说明书摘要公布了:本发明公开了一种自动检测半结构化数据质量问题的分析系统及分析方法,该分析方法以半结构化数据中的JSON数据为具体研究对象,包括解析模式模块将半结构化数据解析为聚合模式树;数据质量问题监测模块依据聚合模式树和数据质量空间自动检测数据潜在的数据质量问题;可视化生成模块将聚合模式树与数据质量问题可视化,帮助用户交互式发现并查看数据质量问题;数据清洗模块用于用户配置并解决数据质量问题。该系统能够帮助用户快速且有效地定位并清洗半结构化数据的数据质量问题。
本发明授权自动检测半结构化数据质量问题的分析系统及分析方法在权利要求书中公布了:1.一种自动检测半结构化数据质量问题的分析系统,其特征在于,该系统包括: 解析模式模块,该模块接收用户输入的原始JSON数据或经过若干次清洗后的JSON数据,并对JSON数据依次执行类型推断、相似度计算、类型聚合,输出一棵描述聚合模式的树状结构的中间数据,即聚合模式树; 数据质量问题检测模块,该模块接收所述JSON数据以及所述解析模式模块输出的聚合模式树,并基于半结构化数据质量的空间,从两个维度对数据质量进行分类;并对空间内的每一个数据质量问题,对应地给出基于规则的检测当前数据质量问题的方法,最终得到包含当前数据质量问题的名称、具体分类、涉及聚合模式树中的节点编码以及节点相关数据在内的信息; 可视化生成模块,该模块的输入为所述解析模式模块和数据质量问题检测模块的输出,通过编码映射与布局生成后,生成一种数据质量问题与模式的可视化视图; 数据清洗模块,用于根据用户自由设置的配置或系统推荐的配置对用户输入的JSON数据进行清洗操作,并提供数据清洗前后的预览操作; 所述解析模式模块包括类型推断子模块、相似度计算子模块和类型聚合子模块; 所述类型推断子模块针对JSON数据的六个数据类型进行推断,分别为字符串String、布尔值Boolean、空值Null、数值Number、字典Dict、数组Array这六种类型;其中,String、Boolean、Null、Number为简单数据类型,Dict、Array为复杂数据类型; 所述相似度计算子模块用于计算所述复杂数据类型的相似度; 所述类型聚合子模块,用于根据相似度计算结果,将相似度不小于预设阈值的两种复杂数据类型进行合并,遍历过程中当前节点为数组、字典或简单数据类型,对这三种情况分类处理;在JSON数据的树根,仅考虑根节点为数组或字典两种情况。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励