共查询到14条相似文献,搜索用时 265 毫秒
1.
差分隐私是一种基于噪声扰动的隐私保护技术,针对差分隐私保护下噪声导致的聚类中心点偏移较大的问题,提出了一种基于BWP(between-within proportion)指标的差分隐私[k]-means算法。算法将聚类有效性评价指标BWP引入到隐私预算分配过程中,对传统隐私预算分配进行加权处理,在一次迭代中为不同密度分布的簇分配不同的隐私预算,从而添加不同的随机噪声。理论分析表明新算法满足[ε]-差分隐私保护。基于四个标准数据集对新算法进行了实验,实验结果表明,在聚类结果的可用性以及算法的稳定性上新算法具有优势。 相似文献
2.
3.
采用聚类算法预先处理个人隐私信息实现差分隐私保护,能够减少直接发布直方图数据带来的噪声累积现象,同时减小了直方图因合并方式不同带来的重构误差。针对DP-DBSCAN差分隐私算法存在对数据参数输入敏感问题,将基于密度聚类的OPTICS算法应用于差分隐私保护中,并提出改进的DP-OPTICS差分隐私保护算法,对稀疏型数据集进行压缩处理,对比采用同方差噪声和异方差噪声两种添加噪声方式,考虑攻击者能够攻破隐私信息的概率,确定隐私参数ε的上界,有效平衡了敏感信息的隐私性和数据的可用性之间的关系。将DP-OPTICS算法和基于OPTICS聚类的差分隐私保护算法、DP-DBSCAN算法进行对比,DP-OPTICS算法在时间消耗上介于其余二者之间,但是在取得相同参数的情况下,聚类的稳定性在三者中最好,因此改进后OP-OPTICS差分隐私保护算法总体上是可行的。 相似文献
4.
图数据隐私保护的研究目前主要集中在简单图,适应范围有限。将权重图数据的隐私保护作为研究对象,可以改善权重图发布之后数据的可用性及有效性。针对在利用聚类匿名化方法处理社交网络数据时,需要增删大量的边和节点,造成严重的数据失真的问题进行了研究。提出了(k,l)加权社交网络匿名算法KFCMSA(联合k成员模糊聚类和模拟退火),并利用改进的簇划分算法将权重社交网络聚类成不同的簇,对同一簇中节点的边权重进行泛化使节点满足l多样性。在实现k度匿名的同时有效减少了边的改变量,提高了数据的可用性,实现最优聚类的同时防止了同质性攻击。聚类质量实验和数据可用性分析表明该算法具有较高的性能优势和较高边保留率。 相似文献
5.
6.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。 相似文献
7.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。 相似文献
8.
针对社交网络边权重隐私保护中的弱保护和最短路径不可分析问题,提出一种满足差分隐私保护模型的边权重保护策略。将社交网络划分为全次图、缺次图、零次图,设计扰动方案及查询函数,对不同图进行查询获取其边权重并按扰动方案对不同的边权重添加不同的Laplace噪声,实现抵御攻击者拥有最大背景知识的攻击的边权重隐私保护,保证一组节点的最短路径不变,且其长度与原路径长度相近。该策略有强保护性及最短路径可分析性,从理论上验证了算法的可行性,通过实验验证了算法的正确性。 相似文献
9.
10.
差分隐私保护是一种基于数据失真的隐私保护方法,通过添加随机噪声使敏感数据失真的同时也保证数据的统计特性。针对DBScan聚类算法在聚类分析过程中会泄露隐私的问题,提出一种新的基于差分隐私保护的DP-DBScan聚类算法。在满足ε-差分隐私保护的前提下,DP-DBScan聚类算法在基于密度的DBScan聚类算法上引入并实现了差分隐私保护。算法能够有效地保护个人隐私,适用于不同规模和不同维度的数据集。实验结果表明,与DBScan聚类算法相比,DP-DBScan聚类算法在添加少量随机噪声的情况下能保持聚类的有效性并获得差分隐私保护。 相似文献
11.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。 相似文献
12.
针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search,CS-PCA)。该算法,一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了约0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。 相似文献
13.
差分隐私算法作为当前研究较多的隐私保护机制之一,有着广泛应用。目前有多种基于差分隐私保护的[k]均值聚类算法,应用场景不一,各有缺陷。以往的算法通过均等划分数据集,构造等宽直方图进行聚类,这会导致没有数据分布的区域也被无差别插入噪声,影响聚类性能。针对这一点,提出了一种新的差分隐私聚类算法[DPQTk]-means,先通过构建差分隐私四分树,用大小不一的自适应存储桶动态划分数据空间,充分表示数据集同时减少噪声插入,再进行[k]均值聚类,证明了其满足[ε]-差分隐私保护。实验结果表明,[DPQTk]-means算法与以往的差分隐私聚类算法相比具有更好的聚类可用性,且能够在隐私保护水平较高的同时保持稳定的聚类性能。 相似文献