首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 59 毫秒
1.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

2.
笔者介绍了差分隐私保护的研究背景、差分隐私保护的基本原理和方法,分析了k-means算法的隐私泄露问题。针对传统面向差分隐私保护k-means算法存在簇中心选取随机性导致聚类可用性较低的问题,提出一种指数加噪机制与密度估计相结合的方法,选取初始聚类中心,从而保证初始中心挑选的合理性,保障样本数据的隐私性。实验结果表明,提出的新方法可以显著提高聚类结果的可用性。  相似文献   

3.
马银方  张琳 《计算机科学》2016,43(Z11):368-372
K-medoids算法对初始中心点敏感,不能有效地对动态数据进行聚类,且需要对相关的隐私数据进行保护。针对这些问题,提出了基于差分隐私保护的KDCK-medoids动态聚类算法。该算法在采用差分隐私保护技术的基础上将KD-树优化选取出的k个聚类中心和增量数据相结合建立新的KD-树,然后采用近邻搜索策略将增量数据分配到与其相应的聚类簇中,从而完成最终的动态聚类。通过实验分别对小数据集和多维的大数据集的聚类准确率及运行时间进行了分析,同时也对采用差分隐私保护技术的KDCK-medoids算法在不同数据集上的有效性进行了评估。实验结果表明,基于差分隐私保护的KDCK-medoids动态聚类算法能够在实现隐私保护的同时快速高效地处理增量数据的动态聚类问题。  相似文献   

4.
采用聚类算法预先处理个人隐私信息实现差分隐私保护,能够减少直接发布直方图数据带来的噪声累积现象,同时减小了直方图因合并方式不同带来的重构误差。针对DP-DBSCAN差分隐私算法存在对数据参数输入敏感问题,将基于密度聚类的OPTICS算法应用于差分隐私保护中,并提出改进的DP-OPTICS差分隐私保护算法,对稀疏型数据集进行压缩处理,对比采用同方差噪声和异方差噪声两种添加噪声方式,考虑攻击者能够攻破隐私信息的概率,确定隐私参数ε的上界,有效平衡了敏感信息的隐私性和数据的可用性之间的关系。将DP-OPTICS算法和基于OPTICS聚类的差分隐私保护算法、DP-DBSCAN算法进行对比,DP-OPTICS算法在时间消耗上介于其余二者之间,但是在取得相同参数的情况下,聚类的稳定性在三者中最好,因此改进后OP-OPTICS差分隐私保护算法总体上是可行的。  相似文献   

5.
基于隐私保护的数据挖掘(PPDM)是社会发展需求的驱动,多项研究都表明,民众普遍对于隐私数据的滥用非常担忧,而且,很多国家和地区的法律都规定要对隐私数据提供保护,因此,出于社会及法律压力,必须在进行数据挖掘的同时提供防止隐私泄露的机制。主要针对数据挖掘中的聚类算法进行研究,提高隐私保护的强度和数据挖掘的精度。  相似文献   

6.
针对传统差分隐私保护的谱聚类算法存在聚类效果不理想的不足,提出一种面向差分隐私保护的自适应谱聚类优化新算法。采用互邻高斯核函数得到稀疏相似度矩阵,分析高维数据集的数据特征与聚类簇数的关系解决降维幅度和聚类簇数的不确定性;引入中间信息向量和中间性的概念来克服初始簇中心选取的盲目性;根据多维高斯分布离群点检验后的结果采用插补法解决离群点问题。仿真实验结果表明,该算法能够有效克服传统方法的不足,且在同一数据集相同隐私保护参数下,可以在保证数据隐私安全性的同时改善聚类效率并显著提高聚类可用性。  相似文献   

7.
针对传统的聚类算法存在隐私泄露的风险,提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验,表明该算法能够在一定的信息损失度范围内实现有效的数据聚类,也可以对聚类数据进行保护。  相似文献   

8.
差分隐私保护k- means聚类方法研究   总被引:2,自引:1,他引:2  
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足e-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。  相似文献   

9.
针对权重社交网络差分隐私保护算法中噪声添加量过大以及隐私保护不均衡问题,提出了一种结合谱聚类算法与差分隐私保护模型的隐私保护算法SCDP.首先针对传统差分隐私保护算法直接向社交网络边权重添加噪声方式带来的噪声添加量过大的问题,结合谱聚类算法,将权重社交网络聚类成为不同的簇,对不同的簇采取随机添加噪声的方式,降低噪声的添...  相似文献   

10.
如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。  相似文献   

11.
宋健  许国艳  夭荣朋 《计算机应用》2016,36(10):2753-2757
在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于差分隐私的数据匿名化隐私保护方法,构建了基于差分隐私的数据匿名化隐私保护模型;在利用微聚集MDAV算法划分相似等价类并在匿名属性过程中引入SuLQ框架设计得到ε-MDAV算法,同时选用Laplace实现机制合理控制隐私保护预算。通过对比不同隐私保护预算下可用性和安全性的变化,验证了该方法可以在保证数据高可用性的前提下有效地提升数据的安全性能。  相似文献   

12.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。  相似文献   

13.
差分隐私保护是一种基于数据失真的隐私保护方法,通过添加随机噪声使敏感数据失真的同时也保证数据的统计特性。针对DBScan聚类算法在聚类分析过程中会泄露隐私的问题,提出一种新的基于差分隐私保护的DP-DBScan聚类算法。在满足ε-差分隐私保护的前提下,DP-DBScan聚类算法在基于密度的DBScan聚类算法上引入并实现了差分隐私保护。算法能够有效地保护个人隐私,适用于不同规模和不同维度的数据集。实验结果表明,与DBScan聚类算法相比,DP-DBScan聚类算法在添加少量随机噪声的情况下能保持聚类的有效性并获得差分隐私保护。  相似文献   

14.
隐私保护问题已成为信息安全领域研究的重点方向。差分隐私从2006年提出至今一直受到理论界的推崇,而近年来在产业界众包模式下的本地差分隐私受到了极大关注。分析了本地差分隐私模型相对于经典差分隐私模型的演进与应用场景,从理论研究和工程实践角度,对本地差分隐私基础理论及其在数据收集与数据分析中的应用研究进行综述。在数据收集方面,介绍了本地差分隐私的主要研究和应用成果,并着重从差分隐私的角度对这些方法进行了分析比较。在数据分析方面,阐述了本地差分隐私在编码、解码以及在统计学角度的实现和分析方式,并从理论上对这些算法进行推导分析。最后,在对已有技术深入对比分析的基础上,总结出了本地差分隐私技术面临的挑战和研究方向。  相似文献   

15.
为了解决数据发布和分析过程中用户真实数据信息被披露的问题,降低攻击者通过差分攻击和概率推理攻击获取真实结果的概率,提出了一种基于置信度分析的差分隐私保护参数配置方法。在攻击者概率推理攻击模型下对攻击者置信度进行分析,使之不高于根据数据隐私属性所设置的隐私概率阈值。所提出的方法能够针对不同查询用户查询权限的差异配置更加合理的隐私保护参数,避免了隐私披露的风险。实验分析表明,所提出的方法根据查询权限、噪声分布特性以及数据隐私属性分析攻击者置信度与隐私保护参数的对应关系,并据此推导出隐私保护参数的配置公式,从而在不违背隐私保护概率阈值的情况下配置合适的ε参数。  相似文献   

16.
在使用位置查询服务时需要提供用户真实位置信息,导致用户信息泄露。大部分研究只针对单个用户的隐私保护,而忽略了多用户之间的相关性。针对轨迹隐私保护中多用户相关性的问题,提出了一种基于用户相关性的差分隐私轨迹隐私保护方案。首先,构建历史轨迹树,利用变阶马尔可夫模型预测用户轨迹,从轨迹集合中生成一组高可用性的轨迹数据集;其次,根据用户轨迹之间的相关性获取一组关联性较低的预测轨迹集;最后,通过自定义隐私预算的方法,根据用户不同的隐私需求动态调整每个位置点的隐私预算并为发布轨迹添加拉普拉斯噪声。实验结果表明:与LPADP算法相比,该算法的执行效率提升了10%~15.9%;与PTPP和LPADP算法相比,该算法的数据可用性提升了11%~16.1%,同时提升了隐私保护程度。  相似文献   

17.
针对攻击者利用生成式对抗网络技术(GAN)还原出训练集中的数据,泄露用户隐私信息的问题,提出了一种差分隐私保护梯度惩罚Wasserstein生成对抗网络(WGAN-GP)的方法.该方法在深度学习训练过程中对梯度添加精确计算后的高斯噪声,并使用梯度惩罚进行梯度修正,实现差分隐私保护.利用梯度惩罚Wasser-stein生成对抗网络与原始数据相似的数据.实验结果表明,在保证数据可用性的前提下,该方法可以有效保护数据的隐私信息,且生成数据具有较好的质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号