共查询到20条相似文献,搜索用时 13 毫秒
1.
2.
为了让不同组织在保护本地敏感数据和降维后发布数据隐私的前提下,联合使用PCA进行降维和数据发布,提出横向联邦PCA差分隐私数据发布算法。引入随机种子联合协商方案,在各站点之间以较少通信代价生成相同随机噪声矩阵。提出本地噪声均分方案,将均分噪声加在本地协方差矩阵上。一方面,保护本地数据隐私;另一方面,减少了噪声添加量,并且达到与中心化差分隐私PCA算法相同的噪声水平。理论分析表明,该算法满足差分隐私,保证了本地数据和发布数据的隐私性,较同类算法噪声添加量降低。实验从隐私性和可用性角度评估该算法,证明该算法与同类算法相比具有更高的可用性。 相似文献
3.
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略的直方图发布算法APB(adaptive privacy budget allocation),首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。 相似文献
4.
针对位置数据众包采集中个人位置隐私泄露的问题,提出了一种满足本地化差分隐私的位置数据众包采集方法。首先,使用逐点插入法构造维诺图,对路网空间进行分割;然后,采用满足本地化差分隐私的随机扰动的方式对每个维诺格中的位置数据进行扰动;再次,设计了一种在扰动数据集上进行空间范围查询的方法,获得对真实结果的无偏估计;最后,在空间范围查询下进行了实验验证,并与保护隐私的轨迹数据采集(PTDC)算法进行了对比,算法查询误差率最坏不超过40%,最好情况在20%以下,运行时间在8 s以内,在隐私保护度高于PTDC算法的前提下,上述参数优于PTDC算法。 相似文献
5.
大数据时代的到来,使得信息量暴增的同时,数据维度也呈现几何式增长。在保护用户隐私的前提下,如何充分挖掘高维数据的可用信息,成为了大数据发布领域的研究热点和难点。差分隐私作为一种强大的隐私保护模型,被越来越多地应用到高维数据发布中。本文归纳了差分隐私及其相关方法在高维数据发布的应用,重点分析了差分隐私和特征降维、特征抽取、贝叶斯网络、树模型以及最新提出的粗糙集和随机投影等方法在高维数据发布中结合应用的优缺点,梳理了各个方法在高维数据方面的应用和对比,最后对未来差分隐私在高维数据发布中的应用方向进行了展望。 相似文献
6.
针对传统的图数据隐私保护方法只关注保护属性或结构两者之一易导致节点或边隐私信息泄露的问题,提出了一种对属性加权图的局部差分隐私的保护算法(AWG-LDP)。首先,该算法利用GN算法将图数据划分成社区子图;其次,分别计算每个社区子图的局部敏感度,对于划分后的每一个子图,通过结合结构相似性和属性相似性并添加拉普拉斯噪声进行边扰动,实现局部差分隐私;最后,利用属性泛化的方式将待发布的节点进行泛化,防止节点敏感信息被攻击。利用真实的图数据集进行了不同参数配置以及不同算法的对比实验,实验结果表明该算法提升了隐私保护效果,同时,降低了信息损失,提高了数据的可用性。 相似文献
7.
随着医学技术的进步和大数据时代的到来,在数据发布时如何对患者就诊记录中的敏感信息进行隐私保护成为当前的研究热点。针对医疗大数据在发布过程中隐私保护问题,提出了基于属性效用值排序法AUR-Tree(attribute utility value ranking-tree)差分隐私数据发布算法。该算法用属性效用值排序法衡量准标识属性对敏感属性的影响程度,以此作为迭代分割的度量依据,采用基于泛化的自顶向下迭代分割分类树技术,通过类等差法合理的分配隐私预算从而实现在医疗数据发布过程中的隐私保护。实验结果表明:该算法在极大地提高了数据的安全性、有效性和可用性的前提下,还保留了后续数据挖掘的价值。 相似文献
8.
在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于差分隐私的数据匿名化隐私保护方法,构建了基于差分隐私的数据匿名化隐私保护模型;在利用微聚集MDAV算法划分相似等价类并在匿名属性过程中引入SuLQ框架设计得到ε-MDAV算法,同时选用Laplace实现机制合理控制隐私保护预算。通过对比不同隐私保护预算下可用性和安全性的变化,验证了该方法可以在保证数据高可用性的前提下有效地提升数据的安全性能。 相似文献
9.
基于差分隐私的数据扰动技术是当前隐私保护技术的研究热点,为了实现对敏感数据差分隐私保护的同时,尽量提高数据的可用性,对隐私参数的合理设置、对添加噪声后数据进行优化是差分隐私保护中的关键技术。提出了隐私参数设置算法RBPPA以及加噪数据的优化算法DPSRUKF。RBPPA将隐私参数设置构建于数据访问者和贡献者的信誉度之上,并与数据隐私度以及访问权限值关联,构造了细粒度的隐私参数设置方案; DPSRUKF采用了平方根无味卡尔曼滤波处理加噪数据,提高了差分隐私数据的可用性。实验分析表明,该算法实现了隐私参数的细粒化设置以及加噪数据优化后数据精度的提高,既为敏感数据的应用提供了数据安全保障,又为数据访问者提供了数据的高可用性。 相似文献
10.
The fast development of the Internet and mobile devices results in a crowdsensing business model, where individuals (users) are willing to contribute their data to help the institution (data collector) analyze and release useful information. However, the reveal of personal data will bring huge privacy threats to users, which will impede the wide application of the crowdsensing model. To settle the problem, the definition of local differential privacy (LDP) is proposed. Afterwards, to respond to the varied privacy preference of users, researchers propose a new model, i.e., personalized local differential privacy (PLDP), which allow users to specify their own privacy parameters. In this paper, we focus on a basic task of calculating the mean value over a single numeric attribute with PLDP. Based on the previous schemes for mean estimation under LDP, we employ PLDP model to design novel schemes (LAP, DCP, PWP) to provide personalized privacy for each user. We then theoretically analysis the worst-case variance of three proposed schemes and conduct experiments on synthetic and real datasets to evaluate the performance of three methods. The theoretical and experimental results show the optimality of PWP in the low privacy regime and a slight advantage of DCP in the high privacy regime. 相似文献
11.
In answer aggregation of crowdsourced data management, rank aggregation aims to combine different agents' answers or preferences over the given alternatives into an aggregate ranking which agrees the most with the preferences. However, since the aggregation procedure relies on a data curator, the privacy within the agents' preference data could be compromised when the curator is untrusted. Existing works that guarantee differential privacy in rank aggregation all assume that the data curator is trusted. In this paper, we formulate and address the problem of locally differentially private rank aggregation, in which the agents have no trust in the data curator. By leveraging the approximate rank aggregation algorithm KwikSort , the Randomized Response mechanism, and the Laplace mechanism, we propose an effective and efficient protocol LDP-KwikSort . Theoretical and empirical results show that the solution LDP-KwikSort:RR can achieve the acceptable trade-off between the utility of aggregate ranking and the privacy protection of agents' pairwise preferences. 相似文献
12.
Dan ZHAO Suyun ZHAO Hong CHEN Ruixuan LIU Cuiping LI Wenjuan LIANG 《Frontiers of Computer Science》2022,16(5):165825
Local differential privacy (LDP), which is a technique that employs unbiased statistical estimations instead of real data, is usually adopted in data collection, as it can protect every user’s privacy and prevent the leakage of sensitive information. The segment pairs method (SPM), multiple-channel method (MCM) and prefix extending method (PEM) are three known LDP protocols for heavy hitter identification as well as the frequency oracle (FO) problem with large domains. However, the low scalability of these three LDP algorithms often limits their application. Specifically, communication and computation strongly affect their efficiency. Moreover, excessive grouping or sharing of privacy budgets makes the results inaccurate. To address the above-mentioned problems, this study proposes independent channel (IC) and mixed independent channel (MIC), which are efficient LDP protocols for FO with a large domains. We design a flexible method for splitting a large domain to reduce the number of sub-domains. Further, we employ the false positive rate with interaction to obtain an accurate estimation. Numerical experiments demonstrate that IC outperforms all the existing solutions under the same privacy guarantee while MIC performs well under a small privacy budget with the lowest communication cost. 相似文献
13.
为解决大型社交网络隐私保护中的复杂度过高及可用性差的问题,提出一种基于随机投影及差分隐私的社交网络隐私保护算法。利用随机投影对社交网络图的邻接矩阵进行指定投影数量的降维,进一步在降维后的矩阵中加入少量高斯噪声生成待发布矩阵。该算法满足(ε,δ)-差分隐私定义且能保持用户间欧氏距离的可计算性不变。实验和对比分析结果表明,该算法较传统差分隐私能大幅提升数据可用性且计算复杂性较小,适用于大规模社交网络隐私保护。 相似文献
14.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。 相似文献
15.
针对数据服务器不可信时,直接收集可穿戴设备多维数值型敏感数据有可能存在泄露用户隐私信息的问题,通过引入本地差分隐私模型,提出了一种可穿戴设备数值型敏感数据的个性化隐私保护方案。首先,通过设置隐私预算的阈值区间,用户在区间内设置满足个人隐私需求的隐私预算,同时也满足了个性化本地差分隐私;其次,利用属性安全域将敏感数据进行归一化;最后,利用伯努利分布分组扰动多维数值型敏感数据,并利用属性安全域对扰动结果进行归一化还原。理论分析证明了该算法满足个性化本地差分隐私。实验结果表明该算法的最大相对误差(MRE)明显低于Harmony算法,在保护用户隐私的基础上有效地提高了不可信数据服务器从可穿戴设备收集数据的可用性。 相似文献
16.
17.
已有的基于差分隐私的直方图发布技术在利用直方图反映数据的真实分布特征时可能会出现“重拖尾”和“零桶”现象,并且在数据量较多处“过于平缓”;另外,已有技术对原始直方图进行差分隐私保护时未考虑每个分组所蕴含的信息量大小不同。针对以上问题,提出一种基于差分隐私的非等距直方图发布方法。首先,利用经验分布函数根据数据稀疏性合理构建非等距直方图;然后,在非等距直方图上应用差分隐私保护技术对原始非等距直方图进行隐私保护;最后,根据非等距直方图的组距大小为每组设置隐私预算以提高每组数据的隐私性。实验结果表明,所提方法在差分隐私下进行直方图发布时充分考虑了数据分布的稀疏性,有效避免了直方图的“重拖尾”和“零桶”现象,保证了所发布直方图反映数据分布特征的准确性;并且为每组添加符合拉普拉斯(Laplace)机制的噪声时,根据组距为每组设置合理的隐私预算,在一定程度上提高了不同数据段的隐私性。 相似文献
18.
隐私保护的多源数据分析是大数据分析的研究热点,在多方隐私数据中学习分类器具有重要应用。提出两阶段的隐私保护分析器模型,首先在本地使用具有隐私保护性的PATE-T模型对隐私数据训练分类器;然后集合多方分类器,使用迁移学习将集合知识迁移到全局分类器,建立一个准确的、具有差分隐私的全局分类器。该全局分类器无需访问任何一方隐私数据。实验结果表明,全局分类器不仅能够很好地诠释各个本地分类器,而且还可以保护各方隐私训练数据的细节。 相似文献
19.
隐私保护问题已成为信息安全领域研究的重点方向。差分隐私从2006年提出至今一直受到理论界的推崇,而近年来在产业界众包模式下的本地差分隐私受到了极大关注。分析了本地差分隐私模型相对于经典差分隐私模型的演进与应用场景,从理论研究和工程实践角度,对本地差分隐私基础理论及其在数据收集与数据分析中的应用研究进行综述。在数据收集方面,介绍了本地差分隐私的主要研究和应用成果,并着重从差分隐私的角度对这些方法进行了分析比较。在数据分析方面,阐述了本地差分隐私在编码、解码以及在统计学角度的实现和分析方式,并从理论上对这些算法进行推导分析。最后,在对已有技术深入对比分析的基础上,总结出了本地差分隐私技术面临的挑战和研究方向。 相似文献
20.
The count of one column for high-dimensional datasets, i.e., the number of records containing this column, has been widely used in numerous applications such as analyzing popular spots based on check-in location information and mining valuable items from shopping records. However, this poses a privacy threat when directly publishing this information. Differential privacy (DP), as a notable paradigm for strong privacy guarantees, is thereby adopted to publish all column counts. Prior studies have verified that truncating records or grouping columns can effectively improve the accuracy of published results. To leverage the advantages of the two techniques, we combine these studies to further boost the accuracy of published results. However, the traditional penalty function, which measures the error imported by a given pair of parameters including truncating length and group size, is so sensitive that the derived parameters deviate from the optimal parameters significantly. To output preferable parameters, we first design a smart penalty function that is less sensitive than the traditional function. Moreover, a two-phase selection method is proposed to compute these parameters efficiently, together with the improvement in accuracy. Extensive experiments on a broad spectrum of real-world datasets validate the effectiveness of our proposals. 相似文献