共查询到20条相似文献,搜索用时 15 毫秒
1.
基于差分隐私的数据发布已得到研究者的广泛关注.然而,现有的发布方法却不能有效地处理高维数据,其原因在于维度灾难和值域多样会引入极大的噪音值,进而使得发布结果的可用性比较低.基于此,提出一种基于联合树的隐私高维数据发布方法PrivHD(differentially private high dimensional data release),该方法通过指数机制构造Markov网,引入满足差分隐私的高通滤波技术缩减指数机制搜索空间.结合充分三角化操作和顶点消除操作对Markov网分割来获得完全团图,采用最大生成树方法生成满足差分隐私的联合树.利用联合树中各个团后置处理之后的联合分布表合成最终的高维数据.基于真实的高维数据集比较PrivHD算法与PrivBayes(private Bayesian network),JTree(junction tree)算法的精度,实验结果表明:PrivHD算法的k-way查询和SVM(support vector machine)分类精度优于同类算法. 相似文献
2.
为解决大型社交网络隐私保护中的复杂度过高及可用性差的问题,提出一种基于随机投影及差分隐私的社交网络隐私保护算法。利用随机投影对社交网络图的邻接矩阵进行指定投影数量的降维,进一步在降维后的矩阵中加入少量高斯噪声生成待发布矩阵。该算法满足(ε,δ)-差分隐私定义且能保持用户间欧氏距离的可计算性不变。实验和对比分析结果表明,该算法较传统差分隐私能大幅提升数据可用性且计算复杂性较小,适用于大规模社交网络隐私保护。 相似文献
3.
目前关于差分隐私数据流统计发布的研究仅考虑一维数据流,其方法无法直接用于解决二维数据流统计发布中可能存在的隐私泄露问题.针对此问题,首先提出面向固定长度二维数据流的差分隐私统计发布算法--PTDSS算法.该算法通过单次线性扫描数据流,以较低空间消耗计算出满足一定条件的二维数据流元组的统计频度,并经过敏感度分析添加适量的噪声使其满足差分隐私要求;接着在PTDSS算法的基础上,利用滑动窗口机制,设计出面向任意长度二维数据流的差分隐私连续统计发布算法--PTDSS-SW.理论分析与实验结果表明,所提算法可安全地实现二维数据流统计发布的隐私保护,同时统计发布结果的相对误差在10%~95%. 相似文献
4.
基于中心化/本地化差分隐私的直方图发布已得到了研究者的广泛关注.用户的隐私需求与收集者的分析精度之间的矛盾直接制约着直方图发布的可用性.针对现有直方图发布方法难以有效同时兼顾用户隐私与收集者分析精度的不足,提出了一种基于混洗差分隐私的直方图发布算法HP-SDP(histogram publication with shuffled differential privacy).该算法结合本地哈希编码技术所设计的混洗应答机制SRR (shuffled randomized response),能够以线性分解的方式扰动用户数据以及摆脱数据值域大小的影响.结合SRR机制产生的用户消息,设计了一种基于堆排列技术的用户消息均匀随机排列算法MRS (message random shuffling),混洗方利用MRS对所有用户的消息进行随机排列.由于经过MRS混洗后的消息满足中心化差分隐私,使得恶意收集者无法通过消息与用户之间的链接对目标用户进行身份甄别.此外,HP-SDP利用基于二次规划技术的后置处理算法POP(post-processing)对混洗后的直方图进行求精处理. HP-SDP算法与现有... 相似文献
5.
通常随着数据集属性维度的增加,高维数据的差分隐私发布方法所需的时间成本和产生的噪声干扰也会随之增大,尤其是对于高维二值数据很容易被过大的噪声所覆盖.因此,针对高维二值数据的隐私发布问题,提出了一种高效且低噪的发布方法PrivSCBN(differentially private spectral clustering ... 相似文献
6.
本地差分隐私具有不需要可信第三方、交互少、运行效率高等优点,近年来受到了广泛关注.然而,现有本地差分隐私集合数据频率估计机制未能考虑数据的隐私敏感度差异,将所有数据同等对待,这会对非敏感数据保护过强,导致估计结果准确度低.针对这一问题,定义了集合数据效用优化本地差分隐私(set-valued data utility-optimized local differential privacy, SULDP)模型,考虑了原始数据域同时包含敏感值和非敏感值的情况,在不减弱对敏感值保护的前提下,允许降低对非敏感值的保护.进一步,提出了符合SULDP模型的5种频率估计机制suGRR,suGRR-Sample,suRAP,suRAP-Sample和suWheel,理论分析证实,相对于现有的本地差分隐私机制,所提方案能够对敏感数据实现完全相同的保护效果,并通过降低非敏感数据的保护效果,实现了频率估计结果的准确度提升.最后,在真实和模拟数据集上评估了新的方案,实验结果证明了所提的5种机制能够有效降低估计误差,提升数据效用,其中suWheel机制表现最优. 相似文献
7.
为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下,联合使用PCA进行降维和数据发布,提出横向联邦PCA差分隐私数据发布算法。引入随机种子联合协商方案,在各站点之间以较少通信代价生成相同随机噪声矩阵。提出本地噪声均分方案,将均分噪声加在本地协方差矩阵上。一方面,保护本地数据隐私;另一方面,减少了噪声添加量,并且达到与中心化差分隐私PCA算法相同的噪声水平。理论分析表明,该算法满足差分隐私,保证了本地数据和发布数据的隐私性,较同类算法噪声添加量降低。实验从隐私性和可用性角度评估该算法,证明该算法与同类算法相比具有更高的可用性。 相似文献
8.
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略(adaptive privacy budget allocation,APB)的直方图发布算法,首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。 相似文献
9.
事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空间划分为多个子空间;然后,随机选择其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者;最后,考虑到隐私参数的设置问题,基于最大后验置信度攻击模型设计启发式隐私参数设置策略.理论分析表明,该方法能够同时保护事务数据的长度与内容,满足压缩的本地差分隐私要求.实验结果表明,与目前最优的工作相比,所收集的数据具有更高的效用性,隐私参数设置更具有语义性. 相似文献
10.
随着大数据驱动下智能技术的快速发展,大规模数据收集场景成为数据治理和隐私保护的主战场,本地化差分隐私技术作为该场景下的主流技术,被谷歌、苹果、微软等企业广泛使用.然而,该技术在用户本地对数据进行扰动,引入较多噪声,数据可用性较差.为实现可用性与隐私性兼顾的隐私保护方法,ESA(encode-shuffle-analyz... 相似文献
11.
12.
13.
Collecting and analysing customers' data plays an essential role in the more intense market competition. It is critical to perform data analysis effectively while ensuring the user's privacy, especially after various privacy regulations are enacted. In this paper, we consider the problem of aggregating the stream data generated from wearable devices in a specific time period in a privacy-preserving manner. Specifically, we adopt the local differential privacy mechanism to provide a strong privacy guarantee for users. One major challenge is that all values of the stream need to be perturbed. The additive noise makes it hard to release an accurate data stream. One way to reduce the noise scale is to select some data points to perturb instead of all. The intuition is that more privacy budgets are applied to a single data point, which ensures the statistical accuracy. The perturbed data points are used to predict the un-selected data points without consuming an extra privacy budget. Based on this idea, we propose a novel stream data statistical framework, which includes four components, data fitting, skeleton point selection, noisy stream generation, and data aggregation. Extensive experiment results show that our proposed method achieves a much smaller mean square error given a fixed privacy budget compared with the state-of-the-art. 相似文献
14.
轨迹数据保护方法是当前隐私保护研究领域的热点问题。现有轨迹数据隐私保护方法多数采取在所有位置点上加噪的策略,这在保护轨迹数据的同时也降低了保护后数据的可用性。为解决该问题,提出了一种融入兴趣区域的差分隐私轨迹数据保护方法。该方法首先将用户长时间停留的相近位置点集合定义为兴趣区域,将兴趣区域的中心点定义为驻留点。然后通过划定阈值的方式,从所有驻留点中挖掘出频繁驻留点,使用驻留点替代原轨迹数据中对应的兴趣区域,精简轨迹数据。最后利用Laplace机制对频繁驻留点进行加噪。该方法仅需要在轨迹数据的局部数据点上进行加噪,即可实现对轨迹数据的差分隐私保护。分别在真实数据集和仿真数据集上进行了实验,实验结果表明该方法在保护轨迹数据隐私的前提下,能够进一步提高数据的可用性。 相似文献
15.
基于差分隐私的数据扰动技术是当前隐私保护技术的研究热点,为了实现对敏感数据差分隐私保护的同时,尽量提高数据的可用性,对隐私参数的合理设置、对添加噪声后数据进行优化是差分隐私保护中的关键技术。提出了隐私参数设置算法RBPPA以及加噪数据的优化算法DPSRUKF。RBPPA将隐私参数设置构建于数据访问者和贡献者的信誉度之上,并与数据隐私度以及访问权限值关联,构造了细粒度的隐私参数设置方案; DPSRUKF采用了平方根无味卡尔曼滤波处理加噪数据,提高了差分隐私数据的可用性。实验分析表明,该算法实现了隐私参数的细粒化设置以及加噪数据优化后数据精度的提高,既为敏感数据的应用提供了数据安全保障,又为数据访问者提供了数据的高可用性。 相似文献
16.
大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战.中心化差分隐私保护技术建立在可信第三方数据收集者的假设基础上,然而该假设在现实中不一定成立.基于此提出的本地化差分隐私作为一种新的隐私保护模型,具有强隐私保护性,不仅可以抵御具有任意背景知识的攻击者,而且能够防止来自不可信第三方的隐私攻击,对敏感信息提供了更全面的保护.介绍了本地化差分隐私的原理与特性,总结和归纳了该技术的当前研究工作,重点阐述了该技术的研究热点:本地化差分隐私下的频数统计、均值统计以及满足本地化差分隐私的扰动机制设计.在对已有技术深入对比分析的基础上,指出了本地化差分隐私保护技术的未来研究挑战. 相似文献
17.
隐私保护的多源数据分析是大数据分析的研究热点,在多方隐私数据中学习分类器具有重要应用。提出两阶段的隐私保护分析器模型,首先在本地使用具有隐私保护性的PATE-T模型对隐私数据训练分类器;然后集合多方分类器,使用迁移学习将集合知识迁移到全局分类器,建立一个准确的、具有差分隐私的全局分类器。该全局分类器无需访问任何一方隐私数据。实验结果表明,全局分类器不仅能够很好地诠释各个本地分类器,而且还可以保护各方隐私训练数据的细节。 相似文献
18.
随着车联网不断地发展,车联网为驾乘者提供便捷服务的同时,也带来了相应的隐私保护问题.轨迹数据发布将可能泄露用户位置隐私,从而危害用户人身安全;为改变已有差分隐私保护方法中添加随机噪音的弊端,提出一种基于统计差分隐私的轨迹隐私保护方法.车辆行驶轨迹具有Markov过程的特点,根据车辆轨迹的特征计算轨迹中位置节点敏感度;并根据位置敏感度,统计阈值和敏感度阈值添加适量Laplace噪音;使用平均相对误差评价轨迹数据的可用性大小.实验证实了基于统计差分隐私的轨迹隐私保护方法的可用性和有效性. 相似文献
19.
The count of one column for high-dimensional datasets, i.e., the number of records containing this column, has been widely used in numerous applications such as analyzing popular spots based on check-in location information and mining valuable items from shopping records. However, this poses a privacy threat when directly publishing this information. Differential privacy (DP), as a notable paradigm for strong privacy guarantees, is thereby adopted to publish all column counts. Prior studies have verified that truncating records or grouping columns can effectively improve the accuracy of published results. To leverage the advantages of the two techniques, we combine these studies to further boost the accuracy of published results. However, the traditional penalty function, which measures the error imported by a given pair of parameters including truncating length and group size, is so sensitive that the derived parameters deviate from the optimal parameters significantly. To output preferable parameters, we first design a smart penalty function that is less sensitive than the traditional function. Moreover, a two-phase selection method is proposed to compute these parameters efficiently, together with the improvement in accuracy. Extensive experiments on a broad spectrum of real-world datasets validate the effectiveness of our proposals. 相似文献
20.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。 相似文献