首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。  相似文献   

2.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

3.
随着移动互联网应用的不断深入,产生了大量个体数据,采集分布在不同终端上的数据进行聚类可以发现人群行为模式,支撑应用服务的深入开展.然而这些数据往往包含个体敏感信息,在缺少可信数据采集者的情况下,直接采集数据进行聚类存在泄露个体数据隐私的风险.近年来,本地化差分隐私(Local Differential Privacy,LDP)以其严谨的数学理论基础得到隐私保护领域研究者的持续关注.现有基于LDP的聚类研究多数采用基于划分的聚类方法,存在仅适用凸状分布数据以及聚类质量损失较大问题.针对该问题,聚焦网格聚类,提出基于LDP的隐私保护网格聚类方法.首先,设计网格划分评估指标,通过调节网格划分粒度调控网格密度估算误差和簇边缘信息损失,指导网格结构选取;然后,在服务器与终端间构建循环反馈机制,利用数据分布信息迭代优化扰动粒度,降低差分噪声注入量,在保护终端数据隐私安全的前提下,提升网格密度估算精度;最后,在服务器端,提出基于网格结构的自适应网格聚合方法,提升隐私保护聚类质量.理论分析和实验结果表明,所提方法在兼顾各终端个体数据隐私的同时,对不同分布数据有良好的聚类效果.  相似文献   

4.
移动设备收集用户的地理位置数据用以提供个性化服务,同时也会产生数据泄露的潜在风险。现有地理位置差分隐私保护机制对于不同地理位置隐私保护级别等同对待,效用优化本地差分隐私(ULDP)考虑了对数据加以不同级别的隐私保护,但仅适用于类别型数据的频率估计,在地理位置隐私保护方面没有应用。考虑ULDP机制下的地理位置保护方案,将平方机制进行改造,提出效用优化的平方机制(USM)。该机制对于敏感地理位置满足本地差分隐私,对于非敏感地理位置不作安全性要求以提高整体效用。选取2种不同的真实地理位置数据集,在隐私预算相同的条件下将USM与平方机制进行对比实验,理论分析和实验结果表明USM在效用方面有显著提升。本文同时还展望了本机制进一步优化的可能方向。  相似文献   

5.
大数据时代信息技术不断发展,隐私问题越来越受到人们的关注。尤其是随着移动端的普及,如何在数据发布的同时保护用户个人的隐私信息是当前面临的重大挑战。此前学术界曾提出依赖于可信第三方的中心化差分隐私技术,但在实际应用中可信第三方的条件通常不成立;随后,在中心化差分隐私的基础上进一步提出了本地化差分隐私,它能够防止来自不可信第三方的隐私攻击,并且面对具有任意知识背景的隐私攻击者依然具有很强的防御效果。但是,市场通常不仅要迎合用户的需求,也要满足运营商的要求。为了对两者进行平衡,如何解决运营商的分析任务是亟待解决的问题。RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)算法能够很好地完成这个任务,它通过使用两次随机响应机制对用户数据进行加密,保证了隐私保护的力度,并使用Lasso回归模型对加密数据进行解密,保证了频率特征提取的准确度。文中的贡献在于将RAPPOR算法应用于疫情信息采集,在保护受访者隐私信息的同时能获取真实的疫情资料,以美国各地新冠确诊人数的数据集进行实验,实验结果表明,所提方法较高程度地拟合了真...  相似文献   

6.
叶青青  孟小峰  朱敏杰  霍峥 《软件学报》2018,29(7):1981-2005
大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战.中心化差分隐私保护技术建立在可信第三方数据收集者的假设基础上,然而该假设在现实中不一定成立.基于此提出的本地化差分隐私作为一种新的隐私保护模型,具有强隐私保护性,不仅可以抵御具有任意背景知识的攻击者,而且能够防止来自不可信第三方的隐私攻击,对敏感信息提供了更全面的保护.介绍了本地化差分隐私的原理与特性,总结和归纳了该技术的当前研究工作,重点阐述了该技术的研究热点:本地化差分隐私下的频数统计、均值统计以及满足本地化差分隐私的扰动机制设计.在对已有技术深入对比分析的基础上,指出了本地化差分隐私保护技术的未来研究挑战.  相似文献   

7.
频繁项目挖掘是数据挖掘的研究热点之一,若数据集包含敏感信息,不作处理地发布挖掘结果会有隐私泄露的风险.目前已有本地化差分隐私的频繁项目挖掘算法,但还无法满足处理大数据时的实时性和数据可用性要求.针对这些问题,该文提出了一种新的面向本地化差分隐私保护的频繁项目挖掘算法—GFIM(group-based frequent ...  相似文献   

8.
事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空间划分为多个子空间;然后,随机选择其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者;最后,考虑到隐私参数的设置问题,基于最大后验置信度攻击模型设计启发式隐私参数设置策略.理论分析表明,该方法能够同时保护事务数据的长度与内容,满足压缩的本地差分隐私要求.实验结果表明,与目前最优的工作相比,所收集的数据具有更高的效用性,隐私参数设置更具有语义性.  相似文献   

9.
差分隐私保护k- means聚类方法研究   总被引:2,自引:1,他引:2  
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足e-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。  相似文献   

10.
笔者介绍了差分隐私保护的研究背景、差分隐私保护的基本原理和方法,分析了k-means算法的隐私泄露问题。针对传统面向差分隐私保护k-means算法存在簇中心选取随机性导致聚类可用性较低的问题,提出一种指数加噪机制与密度估计相结合的方法,选取初始聚类中心,从而保证初始中心挑选的合理性,保障样本数据的隐私性。实验结果表明,提出的新方法可以显著提高聚类结果的可用性。  相似文献   

11.
针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。  相似文献   

12.
李卓  宋子晖  沈鑫  陈昕 《计算机应用》2021,41(9):2678-2686
针对移动群智感知(MCS)中在用户数据提交阶段的隐私保护困难和因隐私保护造成成本增加的问题,基于本地差分隐私(LDP)保护原理设计出用户提交数据属性联合隐私保护的CS-MVP算法和用户提交数据属性独立隐私保护的CS-MAP算法.首先,基于属性关系构建用户提交数据的隐私性模型和任务数据的可用性模型,利用CS-MVP和CS...  相似文献   

13.
针对已有基于分组平抑差分噪声误差的隐私保护直方图发布方法无法有效均衡分组近似误差与差分隐私(DP)拉普拉斯误差,从而造成直方图可用性缺失的问题,提出基于差分隐私的高精度直方图发布方法(HPHP)。首先,采用约束推断方法,在满足DP约束的前提下实现直方图排序;然后,基于有序直方图,采用动态规划分组方法在添加噪声的直方图上生成具有最小总误差的分组;最后,在各组均值上添加拉普拉斯噪声。方便对比分析起见,提出具有理论最小误差的隐私保护直方图发布方法(Optimal)。将HPHP与直接添加噪声的DP方法、AHP方法以及Optimal进行实验分析,实验结果表明:相较于AHP方法,HPHP所发布直方图的Kullback-Leibler散度(KLD)能够降低90%,接近Optimal的效果。因此,在相同的预置条件下,HPHP可以在保证满足DP的前提下发布更高精度的直方图。  相似文献   

14.
针对已有基于分组平抑差分噪声误差的隐私保护直方图发布方法无法有效均衡分组近似误差与差分隐私(DP)拉普拉斯误差,从而造成直方图可用性缺失的问题,提出基于差分隐私的高精度直方图发布方法(HPHP)。首先,采用约束推断方法,在满足DP约束的前提下实现直方图排序;然后,基于有序直方图,采用动态规划分组方法在添加噪声的直方图上生成具有最小总误差的分组;最后,在各组均值上添加拉普拉斯噪声。方便对比分析起见,提出具有理论最小误差的隐私保护直方图发布方法(Optimal)。将HPHP与直接添加噪声的DP方法、AHP方法以及Optimal进行实验分析,实验结果表明:相较于AHP方法,HPHP所发布直方图的Kullback-Leibler散度(KLD)能够降低90%,接近Optimal的效果。因此,在相同的预置条件下,HPHP可以在保证满足DP的前提下发布更高精度的直方图。  相似文献   

15.
针对现有融合知识图谱和隐私保护的推荐方法不能有效平衡差分隐私(DP)噪声与推荐系统性能的问题,提出了一种融合知识图谱和隐私保护的新闻推荐方法(KGPNRec)。首先,采用多通道知识感知的卷积神经网络(KCNN)模型融合新闻标题、知识图谱中实体和实体上下文等多维度的特征向量,以提高推荐的准确度;其次,利用注意力机制为不同敏感程度的特征向量添加不同程度的噪声,从而降低噪声对数据分析的影响;然后,对加权的用户特征向量添加统一的拉普拉斯噪声,以保证用户数据的安全性;最后,在真实的新闻数据集上进行实验分析。实验结果表明,与隐私保护的多任务推荐方法(PPMTF)和基于深度知识感知网络(DKN)的推荐方法等相比,所提KGPNRec在保护用户隐私的同时能保证方法的预测性能。在Bing News数据集上,所提方法的曲线下面积(AUC)值、准确率和F1分数与PPMTF相比分别提高了0.019、0.034和0.034。  相似文献   

16.
宋健  许国艳  夭荣朋 《计算机应用》2016,36(10):2753-2757
在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于差分隐私的数据匿名化隐私保护方法,构建了基于差分隐私的数据匿名化隐私保护模型;在利用微聚集MDAV算法划分相似等价类并在匿名属性过程中引入SuLQ框架设计得到ε-MDAV算法,同时选用Laplace实现机制合理控制隐私保护预算。通过对比不同隐私保护预算下可用性和安全性的变化,验证了该方法可以在保证数据高可用性的前提下有效地提升数据的安全性能。  相似文献   

17.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

18.
The increasing availability of high-dimensional data collected from numerous users has led to the need for multi-dimensional data publishing methods that protect individual privacy. In this paper, we investigate the use of local differential privacy for such purposes. Existing solutions calculate pairwise attribute marginals to construct probabilistic graphical models for generating attribute clusters. These models are then used to derive low-dimensional marginals of these clusters, allowing for an approximation of the distribution of the original dataset and the generation of synthetic datasets. Existing solutions have limitations in computing the marginals of pairwise attributes and multi-dimensional distribution on attribute clusters, as well as constructing relational dependency graphs that contain large clusters. To address these problems, we propose LoHDP, a high-dimensional data publishing method composed of adaptive marginal computing and an effective attribute clustering method. The adaptive local marginal calculates any k-dimensional marginals required in the algorithm. In particular, methods such as sampling-based randomized response are used instead of privacy budget splits to perturb user data. The attribute clustering method measures the correlation between pairwise attributes using an effective method, reduces the search space during the construction of the dependency graph using high-pass filtering technology, and realizes dimensionality reduction by combining sufficient triangulation operation. We demonstrate through extensive experiments on real datasets that our LoHDP method outperforms existing methods in terms of synthetic dataset quality.  相似文献   

19.
针对传统的图数据隐私保护方法只关注保护属性或结构两者之一易导致节点或边隐私信息泄露的问题,提出了一种对属性加权图的局部差分隐私的保护算法(AWG-LDP)。首先,该算法利用GN算法将图数据划分成社区子图;其次,分别计算每个社区子图的局部敏感度,对于划分后的每一个子图,通过结合结构相似性和属性相似性并添加拉普拉斯噪声进行边扰动,实现局部差分隐私;最后,利用属性泛化的方式将待发布的节点进行泛化,防止节点敏感信息被攻击。利用真实的图数据集进行了不同参数配置以及不同算法的对比实验,实验结果表明该算法提升了隐私保护效果,同时,降低了信息损失,提高了数据的可用性。  相似文献   

20.
采用聚类算法预先处理个人隐私信息实现差分隐私保护,能够减少直接发布直方图数据带来的噪声累积现象,同时减小了直方图因合并方式不同带来的重构误差。针对DP-DBSCAN差分隐私算法存在对数据参数输入敏感问题,将基于密度聚类的OPTICS算法应用于差分隐私保护中,并提出改进的DP-OPTICS差分隐私保护算法,对稀疏型数据集进行压缩处理,对比采用同方差噪声和异方差噪声两种添加噪声方式,考虑攻击者能够攻破隐私信息的概率,确定隐私参数ε的上界,有效平衡了敏感信息的隐私性和数据的可用性之间的关系。将DP-OPTICS算法和基于OPTICS聚类的差分隐私保护算法、DP-DBSCAN算法进行对比,DP-OPTICS算法在时间消耗上介于其余二者之间,但是在取得相同参数的情况下,聚类的稳定性在三者中最好,因此改进后OP-OPTICS差分隐私保护算法总体上是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号