首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
隐私保护k-匿名算法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
隐私保护已成为个人或组织机构关心的基本问题,k-匿名是目前数据发布环境下实现隐私保护的主要技术之一。鉴于多数k-匿名方法采用泛化和隐匿技术,严重依赖于预先定义的泛化层或属性域上的全序关系,产生很高的信息损失,降低了数据的可用性,提出了一种基于聚类技术的k-匿名算法。实验结果表明,该算法在保护隐私的同时,提高了发布数据的可用性。  相似文献   

2.
分布式数据隐私保护K-均值聚类算法   总被引:2,自引:0,他引:2  
如何获取准确的数据关系而不泄露合作方的任何私有数据是分布式数据挖掘隐私保护首要任务.将安全多方计算与数据挖掘技术相结合,提出应用于水平分布和垂直分布类型的数据的隐私保护k-均值聚类算法.实验表明算法能有效的保护数据的隐私,且对聚类结果没有影响.  相似文献   

3.
针对基于传统的k-匿名模型下移动用户轨迹数据发布隐私保护算法有可能将相似度极高的轨迹匿名在同一个匿名集中从而导致可能出现的用户个人隐私泄露风险的不足。设计了一种新的轨迹数据发布隐私保护算法。该算法基于k-匿名模型,将轨迹所在的二维空间划分成大小相等的单元格,之后将由轨迹数据得到对应轨迹经过的单元格序列,从而定义轨迹k-匿名下的l-差异性,算法在满足k-匿名模型的前提下通过聚类的方法构建匿名集,并保证匿名集中的轨迹满足l-差异性标准,以达到降低由于差异性不足引起用户隐私泄露的风险的目的。实验结果表明,该算法是可行有效的。  相似文献   

4.
差分隐私保护是一种基于数据失真的隐私保护方法,通过添加随机噪声使敏感数据失真的同时也保证数据的统计特性。针对DBScan聚类算法在聚类分析过程中会泄露隐私的问题,提出一种新的基于差分隐私保护的DP-DBScan聚类算法。在满足ε-差分隐私保护的前提下,DP-DBScan聚类算法在基于密度的DBScan聚类算法上引入并实现了差分隐私保护。算法能够有效地保护个人隐私,适用于不同规模和不同维度的数据集。实验结果表明,与DBScan聚类算法相比,DP-DBScan聚类算法在添加少量随机噪声的情况下能保持聚类的有效性并获得差分隐私保护。  相似文献   

5.
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性.从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决.针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制.通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化;最后给出了问题求解的理论证明和实验分析.实验结果表明该机制能最大程度减少聚类匿名的信息损失,并且在运行时间方面是可行有效的.  相似文献   

6.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

7.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

8.
徐龙琴  刘双印 《计算机应用》2011,31(4):999-1002
针对现有k-匿名方法直接用于多敏感属性数据发布中存在大量隐私泄露的问题,提出一种基于语义相似和多维加权的联合敏感属性隐私保护算法。该算法通过语义相似性反聚类思想和灵活设置多敏感属性值的权值,实现了联合敏感属性值和语义多样性分组的隐私保护,并根据应用需要为数据提供不同的隐私保护力度。实验结果表明,该方法能有效保护数据隐私,增强了数据发布的安全性和实用性。  相似文献   

9.
马银方  张琳 《计算机科学》2016,43(Z11):368-372
K-medoids算法对初始中心点敏感,不能有效地对动态数据进行聚类,且需要对相关的隐私数据进行保护。针对这些问题,提出了基于差分隐私保护的KDCK-medoids动态聚类算法。该算法在采用差分隐私保护技术的基础上将KD-树优化选取出的k个聚类中心和增量数据相结合建立新的KD-树,然后采用近邻搜索策略将增量数据分配到与其相应的聚类簇中,从而完成最终的动态聚类。通过实验分别对小数据集和多维的大数据集的聚类准确率及运行时间进行了分析,同时也对采用差分隐私保护技术的KDCK-medoids算法在不同数据集上的有效性进行了评估。实验结果表明,基于差分隐私保护的KDCK-medoids动态聚类算法能够在实现隐私保护的同时快速高效地处理增量数据的动态聚类问题。  相似文献   

10.
数据转换是保护数据隐私的一种有效方法。针对如何保持转换后数据的可用性问题,提出了一种基于模糊集的隐私保护方法。该方法把隐私属性值转换成模糊值,然后把转换后的数据及其模糊偏移度一起公开,既保护了数据隐私,也标示了数据的相对大小,很好地保持了数据的可用性。实验采用k-平均聚类方法对转换前后的数据进行聚类分析对比,结果表明,转换前后数据的聚类结果有很高的相似性,满足保护隐私和保持可用性的要求。  相似文献   

11.
基于K-均值聚类和凝聚聚类的离群点查找方法   总被引:2,自引:1,他引:1       下载免费PDF全文
离群点发现是数据挖掘研究的一个重要方面。根据数据流的特点,给出了一种基于K-均值聚类和凝聚聚类的离群点发现方法,先用K-均值聚类对数据流进行处理,生成中间聚类结果,然后用凝聚聚类对这些中间结果进行再次选择,最后找出可能存在的离群点。  相似文献   

12.
针对就业信息数据中存在着大量的量化属性和分类属性等现象,提出了一种基于k-means的量化关联规则挖掘方法。该方法利用聚类算法k-means对量化属性进行合理分区,将量化属性转化为布尔型;利用改进的布尔关联规则方法对此进行关联规则挖掘,找出学生的受教育属性和就业属性之间的关联性;对挖掘出的规则进行分析和运用。就业信息数据实验证明,文中所提方法对就业信息进行挖掘是有效的、可行的。  相似文献   

13.
差分隐私保护k- means聚类方法研究   总被引:3,自引:1,他引:2  
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足e-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。  相似文献   

14.
Automated variable weighting in k-means type clustering   总被引:9,自引:0,他引:9  
This paper proposes a k-means type clustering algorithm that can automatically calculate variable weights. A new step is introduced to the k-means clustering process to iteratively update variable weights based on the current partition of data and a formula for weight calculation is proposed. The convergency theorem of the new clustering process is given. The variable weights produced by the algorithm measure the importance of variables in clustering and can be used in variable selection in data mining applications where large and complex real data are often involved. Experimental results on both synthetic and real data have shown that the new algorithm outperformed the standard k-means type algorithms in recovering clusters in data.  相似文献   

15.
针对影响k-means聚类效果的聚类数目和初始中心点两大因素,提出了基于双重遗传的kmeans算法。它用外层遗传算法控制聚类数目,用内层遗传算法控制聚类的初始中心点,并采用类间距离和类内距离以及二者之间的比值来评价聚类结果的好坏,在算法终止后,可同时求得较优的聚类数目和某聚类数目下的较优初始中心点。此外,根据内外层遗传算法的特殊性,采用不同的编码策略适应算法需求,为保留优质个体,采用精英个体保留策略。通过UCI数据集测试实例证明此算法有很好的实用性,对数据挖掘技术有一定参考价值。  相似文献   

16.
The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications.  相似文献   

17.
姜大庆  周勇  夏士雄 《计算机应用》2012,32(6):1522-1525
为了从多源复杂的网络性能数据中挖掘有用模式以提高网络服务质量,研究了基于本体的网络性能监测数据聚类分析方法。阐述了网络性能监测数据的语义描述方法,提出基于语义和属性数据相融合的网络性能数据相似性度量模型,并给出基于改进k-means的NJW谱聚类算法。通过在UCI数据集和校园网性能监测数据集上的实验表明, 本文所提方法较相关比对方法具有更高的聚类准确性和区分度。  相似文献   

18.
聚类算法是数据挖掘中核心技术之一,而k-means算法在经典聚类算法中占有重要地位。根据市场调查中的顾客感知质量,感知价格,市场份额和品牌类别为测试数据,用k-means算法进行数据挖掘,充分利用数据挖掘结果,得出符合市场现状的市场定位结论。  相似文献   

19.
邓滨玥 《软件》2020,(2):188-192
k-means算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。在数据挖掘技术中常常使用聚类方法,而k-means算法作为最典型、最常见、实用度最广的一种聚类算法,具有简单易操作等优点。但此算法需要人工设定聚类中心的数量,初始聚类中心,容易陷入局部最优,使得算法的时间复杂度变得较大,得到的聚类结果易受到k值与设定的初始聚类中心的影响,针对这些问题,本文介绍了k-means算法的改进方法,分析其优缺点并提出了优化算法的下一步研究方向。  相似文献   

20.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号