首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
KACA是一种基于局域泛化的K-匿名化方法.基于该算法,结合敏感属性隐私保护度,提出了一种S-KACA算法.该算法能够更有针对性地保护敏感隐私属性,而且使发布后数据的可用性较高,但由于其在保护敏感隐私信息时设置了一个隐私保护度的参数,会影响算法执行效率,使大规模的数据集应用有一定的局限性.为解决这个问题,引入一个高效的聚类算法——K-Prototypes算法,并将其与S-KACA算法相结合,提出一种K-Prototypes-SKACA算法.该算法首先通过聚类算法K-Prototypes将整个微数据集划分成几个较大的簇,然后再采用S-KACA算法对这些簇的微数据进行匿名化处理.实验验证K-Prototypes-S-KACA算法在隐私保护程度和数据可用性的大小与S-KACA算法相近,但是算法运行效率却得到了很大的提高.  相似文献   

2.
为增强个体与隐私信息的保护力度,提高数据效用和降低时间代价,提出半监督聚类的(α,k)匿名模型,并设计算法予以实现,分析了算法时间复杂度.针对数据集包含数值属性和分类属性的特点,把数值属性和分类属性映射到相同的度量空间进行运算,以相异矩阵表示数据集元组之间的距离,使相同或者相近的元组有效地聚集到同一个簇内.把高敏感度属...  相似文献   

3.
针对现有数据扰动方法难以维持原始数据的聚类可用性问题,提出了一种隐私保护数据扰动算法DPTPE.基于邻域拓扑势熵将节点划分为不同类型,对于邻域分散型节点,以该节点的k邻域中节点坐标的均值替换其原始坐标;对于邻域紧密型节点,在其安全邻域中随机选择一个节点替换该节点。实验结果表明,DPTPE算法可以保护数据的隐私安全,还能够较好地维持数据集的聚类可用性。  相似文献   

4.
多视图模糊聚类综合了数据的不同表示,虽然能够产生更全面、宏观的聚类结果,但是容易受到噪声干扰。为了提高抵抗噪声的能力,提出了一种多视图模糊聚类算法。该算法同时继承了多视图聚类和模糊紧致性分离性聚类算法的优点,能够根据不同视图的重要性协同聚类,同时增强算法的鲁棒性。为了验证算法的有效性,选取4个多视图数据集进行了实验。实验结果表明,该算法不仅能够获得较高的聚类准确率,而且能有效地降低噪声数据对聚类结果的影响。  相似文献   

5.
为解决现有的分布式聚类算法效率低下和不能保护数据隐私的问题,在K-Dmeans算法的基础上,提出一种新的分布式聚类算法.该算法利用数据对象间的密度函数值来优化站点初始聚类中心,从而大大降低了聚类的迭代次数;同时各从站点只需向主站点传送其聚簇的特征信息,有效降低分布式聚类过程中的通信量,保护了各个站点的独立性,实验结果表...  相似文献   

6.
在聚类过程中结合簇内紧凑度信息和特征权值分布信息,对数据集的划分和各个簇类所在的子空间两方面进行优化。实验结果表明,该算法相比已有的软子空间聚类算法具有更好的聚类效果。  相似文献   

7.
查询日志的发布会泄露用户的隐私。提出一种基于差分隐私的查询日志匿名化算法:首先构建用户查询项模型进行相似度计算并利用所求结果对用户查询项模型进行聚类,其次在聚类过程中添加指数噪音来满足差分隐私,最后发布匿名化数据。实验表明:该算法有效地提高了查询日志的实用性和隐私保护程度。  相似文献   

8.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

9.
为提高差分隐私保护下推荐算法的准确性,提出了一种考虑差分隐私保护的基于Bhattacharyya系数(BC)的聚类推荐算法.以BC作为项目相似性度量的标准,根据BC相似性对项目进行K-medoids聚类,并在聚类簇中进行私有项目邻居选择.最后,根据最近邻居集信息,对用户的评分进行预测和Top-n推荐.提出的方案有效地克服了已有方法中存在的相似性度量依赖于共同评分的问题,提高了相似性度量的准确性,有效避免了因隐私保护而造成的最近邻居集质量下降的问题.理论分析和实验测试的结果表明,该方法在实现隐私保护的同时还能有效保证推荐的高质量,较好地实现了隐私保护和数据效用之间的平衡,具有良好的应用潜力.  相似文献   

10.
随着数据挖掘应用领域的扩大,隐私保护的数据挖掘技术研究变得越来越重要.作为隐私保护数据挖掘的主要类型——隐私保护的分类数据挖掘已经成为近年来数据挖掘领域的热点之一.如何对原始数据进行变换,然后在变换后的数据集上构造判定树是隐私保护分类数据挖掘研究的重点.基于随机扰动矩阵提出一种隐私保护分类挖掘算法.该方法适用于字符型、布尔类型、分类类型和数字类型的离散数据,并且在隐私信息的保护度和挖掘结果的准确度上都有很大的提高.  相似文献   

11.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

12.
聚类挖掘可以高效准确地从数据中找出很多潜在的、有价值的规律,但也同时存在着泄露用户隐私数据的安全威胁.已经有一些专门针对聚类挖掘的隐私保护研究,其中乘法扰动方法是一种准确性和安全性都较高的隐私保护算法.研究发现已知信息独立分量分析极大地降低了已有乘法扰动方法的安全性,它能够从乘法扰动数据中近似估计隐私数据.为了解决以上问题,提出了局部旋转扰动隐私保护算法,通过准确性分析得出新算法具有零损失准确性.利用安全性分析证明新算法能够有效抵御独立分量分析的攻击,具有更高的安全性.将新算法应用到聚类挖掘中,得到了与未加隐私保护的聚类挖掘非常接近的结果,说明了它的可行性.局部旋转扰动方法的出现,有效地解决了已有乘法扰动方法的安全漏洞,使得聚类挖掘能够更加安全地得到应用.  相似文献   

13.
轨迹隐私保护中使用k-means算法进行聚类时,对初始值敏感,且聚簇数目的选择具有一定的盲目性,为解决该问题并提高聚类结果的可用性,提出一种结合k-shape和差分隐私的轨迹隐私保护方案KSDP(k-shape differential privacy).首先,对轨迹数据进行划分切割预处理,利用轨迹的时间属性和空间属性对轨迹切割划分,从而提高聚类泛化的质量.其次,使用设定的效用函数对预处理后的轨迹数据进行评判,并对过滤后数据进行聚类泛化操作.最后,在泛化后的数据中加入Laplace噪声,使其满足差分隐私保护模型,进一步保护轨迹隐私.实验仿真结果表明,与传统差分隐私k-means聚类方案对比,KSDP方案有效提高了聚类结果的可用性,并具有一定的性能优势,更好地实现了轨迹数据发布和隐私保护.  相似文献   

14.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

15.
基于分布模型的层次聚类算法   总被引:1,自引:0,他引:1  
提出了一种新的层次聚类算法,先对数据集进行采样,以采样点为中心吸收邻域内的数据点形成子簇,再根据子簇是否相交实现层次聚类。在层次聚类过程中,重新定义了簇与簇之间的距离度量,并以此为基础建立堆结构。利用估计数据点总体分布的思想,证明该算法将逼近最优解。实验结果表明,算法的聚类效果大大优于现有的聚类算法。  相似文献   

16.
基于基因表达式编程的自动聚类方法   总被引:10,自引:1,他引:9  
为了解决聚类算法不能自动聚类的问题,提出并实现了自动聚类算法GEP-Cluster算法。主要工作包括:1)研究了基于GEP进化的最优簇划分;2)提出了自动合并簇算法Auto Merge Cluster Algorithm;3)实现了不需预知簇个数的聚类;4)在合成数据集上的实验表明,采用GEP-Cluster算法在未知簇划分信息的情况下可对数据集自动进行聚类分析,聚类成功率达到96%。  相似文献   

17.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

18.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

19.
近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从单视图向多视图的方向转变。提出了一种以LDA主题模型和TF-WIDF特征提取算法作为特征向量组,基于谱聚类的改进型多视图半监督文本聚类方法。该方法基于半监督的协同训练(Co-training)算法,通过对协同训练算法中的文本标记方式进行改进,实现无监督性质的多视图协同训练算法。实验结果表明:改进算法相较于传统单视图文本聚类算法,很大程度上避免了单视图算法的偶然性和局限性,提高了文章整体聚类的准确度。  相似文献   

20.
针对垂直划分的分布式数据库提出了一种基于隐私保护的分布式聚类算法PPDC-VP,该算法基于K-Means的思想实现分布式聚类,并且聚类过程中应用扰乱技术保护本站点真实信息不被传送到其它站点,从而达到隐私保护的目的.理论分析和实验结果表明PPDC-VP算法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号