买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京邮电大学
申请日:2014-12-19
公开(公告)日:2017-10-10
公开(公告)号:CN104537025B
专利技术分类:
专利摘要:本发明涉及数据隐私和数据挖掘技术领域,公开了一种频繁序列挖掘方法,包括步骤:S1:从原始数据库中计算序列最大限制长度lmax,并获取β={β1,...βi...,βn},βi表示长度为i的序列的最大支持度;S2:根据所述lmax和β={β1,...βi...,βn},基于抽样的候选集剪枝技术,在满足差分隐私保护范式的条件下从所述原始数据库中查找频繁序列。本发明中的满足差分隐私的基于抽样实现候选集剪枝的频繁序列挖掘方法PFS2能够在满足差分隐私保护的同时提供较高的挖掘结果可用性。
专利权项:一种频繁序列挖掘方法,其特征在于,包括步骤:S1:从原始数据库中计算序列最大限制长度lmax,并获取β={β1,...βi...,βn},βi表示长度为i的序列的最大支持度;S2:根据所述lmax和β={β1,...βi...,βn},基于抽样的候选集剪枝技术,在满足差分隐私保护范式的条件下从所述原始数据库中查找频繁序列;S2具体包括:S2.1:对于给定的阈值θ,利用β来估算最大频繁序列长度Lf,令Lf为整数y,使得βy为β中大于θ的最小值;S2.2:将原始数据库随机的分割成Lf个互不相交的数据库作为样本数据库,且组成集合dbSet,每一个数据库包含|D|Lf个序列,其中|D|表示数据库中序列的个数;S2.3:生成候选频繁序列,当挖掘频繁1‑序列时,候选频繁1‑序列为数据库中的项,以后根据向下闭包性质,使用频繁k‑1‑序列生成候选频繁k‑序列,用来挖掘频繁k‑序列;S2.4:在样本数据库中,对于长度超过序列最大限制长度lmax的序列,采用序列收缩方法限制其长度,同时,对用户指定的阈值进行放宽,用于在样本数据库中判断序列的频繁属性;S2.5:计算候选序列在原始数据库中加入噪音的支持度,将加入噪音的支持度大于所述阈值θ的候选序列作为频繁序列输出。
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。