首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于差分隐私的直方图数据发布方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中南民族大学;武汉空天软件技术有限公司

摘要:本发明提供了一种基于差分隐私的直方图数据发布方法,包括如下步骤:步骤1:设置聚类中心点数K;步骤2:在直方图数据中随机选取一个点为初始中心点,按照非中心点与中心点之间的最短距离结合指数机制,计算出每个直方图桶的抽样概率,利用轮盘抽样选取剩余的中心点;步骤3:利用得到的聚类中心点对原始直方图数据进行聚类分组;步骤4:对划分后的各分组求均值;步骤5:对各分组添加拉普拉斯噪音;步骤6:对差分隐私处理后的直方图数据进行发布,本发明在提升数据发布效率的同时,可以提高数据可用性。

主权项:1.一种基于差分隐私的直方图数据发布方法,其特征在于,包括:S1:对原始直方图数据设置中心点的数量K,原始直方图数据为患者数据,患者数据具体包括各种疾病类型以及每种疾病类型的确诊数量;S2:在直方图数据中随机选取一个点作为初始中心点,利用非中心点与中心点之间的最短距离结合指数机制,计算出每个直方图桶的抽样概率,利用轮盘抽样从所有非中心点中依次选取出下一次作为中心点的点,直到中心点的数量达到K,其中,初始中心点为一种疾病类型的确诊数量;S3:利用选取好的K个中心点对患者直方图数据HH1,H2,...,Hn进行K-means聚类得到分组数据GG1,G2,...,Gk,其中,H1、H2、Hn分别表示第一个直方图数据、第二个直方图数据和第n个直方图数据,n表示直方图数据的数量,G1、G2、Gk分别表示第一个分组数据、第二个分组数据和第k个分组数据,k表示分组的个数;S4:对通过K-means聚类得到的各分组数据求平均值,得到分组数据的均值其中,分别表示第一个分组数据的均值、第二个分组数据的均值和第k个分组数据的均值;S5:在各分组数据均值上添加拉普拉斯噪声,并还原直方图顺序,得到差分隐私直方图数据其中,分别表示第一个差分隐私直方图数据、第二个差分隐私直方图数据和第n个差分隐私直方图数据;S6:对患者差分隐私保护直方图数据进行发布;其中,步骤S2包括:S2.1:在原始直方图数据中随机选取一个桶作为初始中心点,一个桶对应一个直方图数据;S2.2:计算每个非中心点桶到中心点桶的最短距离: 其中,Hj表示原始直方图数据中的非中心点桶;Ci表示已经选取为中心点的桶,Ci∈C,i=1,2,...,k,uH,Hj表示每个非中心点桶到中心点桶的最短距离;S2.3:基于步骤S2.2中计算的最短距离并结合指数机制,计算非中心点桶的抽样概率: 其中,抽样概率PrH,Cj用以表示非中心点桶Hj被选择为下一个中心点Cj的概率,ε1为隐私预算,用以表征隐私保护力度;Δu为全局敏感度;为适应度函数,m表示非中心点桶的数量,分子计算的是某一个非中心点桶的适应度值,分母计算的是所有非中心点桶的适应度值的和,适应度函数用于计算桶的适应度值,适应度值用于表征非中心点桶被选中为下一个中心点的比重;S2.4:根据每个非中心点桶到中心点桶的最短距离和非中心点桶的抽样概率,采用轮盘法从所有非中心点桶中选取出一个桶作为下一个中心点桶;S2.5:循环执行步骤S2.2-S2.4,直至选出K个中心点桶。

全文数据:

权利要求:

百度查询: 中南民族大学 武汉空天软件技术有限公司 一种基于差分隐私的直方图数据发布方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。