买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本公开涉及用于生成合成数据的系统和方法。实体维持大量数据,并且在维持个人可识别信息PII的数据隐私的同时对这些大型数据集进行概率分布和或相关性分析是困难的。本申请描述了用于识别包括PII的数据字段并合成数据以使得PII被移除但保持概率分布和或相关性度量的完整性的方法。某些数据基于数据表类型被分组成数据字段,并且每个数据类型可以被分配某种数据分析策略,策略可以包括联合概率分布、特征库数据伪造器、遗传正则表达式生成器和或时间序列模型。可以生成表草图,其可以包括要在未来数据查询中使用的至少一个合成器配方。
主权项:1.一种用于生成合成数据的系统,包括:存储器,所述存储器被配置为存储非暂时性计算机可读指令;以及处理器,所述处理器通信地耦合到所述存储器,其中所述处理器在执行所述非暂时性计算机可读指令时被配置为:接收至少一个数据集;分析所述至少一个数据集以获取元数据;如果所述至少一个数据集不包括元数据,则生成元数据,其中所生成的元数据将至少一个数据字段标识为包括个人可识别信息PII;识别与所述包括PII的至少一个数据字段相关联的表类型;基于所识别的表类型将所述包括PII的至少一个数据字段分组成数据类型;将至少一个数据分析策略应用于所述包括PII的至少一个数据字段,其中所述至少一个数据分析策略合成所述包括PII的至少一个数据字段;基于所述包括PII的至少一个数据字段生成至少一个合成数据字段,其中所述至少一个合成数据字段不包括PII,并且其中所述至少一个合成数据字段与所述包括PII的至少一个数据字段相关;以及基于所述至少一个合成数据字段,生成至少一个表草图,其中所述表草图包括至少一个合成器配方和至少一个计算字段配方。
全文数据:
权利要求:
百度查询: 科里布拉比利时股份有限公司 用于生成合成数据的系统和方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。