首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

2.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚...  相似文献   

3.
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。  相似文献   

4.
针对异构数据发布的隐私保护以及数据挖掘泛化性问题,提出一种用于聚类分析的异构数据差分隐私发布方案。为了解决处理隐私信息后缺乏正确引导的问题,将原始数据分组为集群,并利用集群标签对数据的集群结构进行编码,还为异构数据定制了一个同时考虑关系属性和集值属性的距离度量集群。在保留集群结构的同时迭代地概括原始数据。进一步在原始数据中加入噪声从而满足ε-差分隐私的要求。在满足差分隐私原则的前提下,提出一种同时处理关系数据和集值数据的不确定性算法,不同类型的数据以类似的方式进行匿名化。通过实验验证了该方法能够有效解决异构数据发布问题。  相似文献   

5.
基于聚类杂交的隐私保护轨迹数据发布算法   总被引:1,自引:0,他引:1  
传统关于轨迹数据发布的隐私保护研究大多采用聚类技术,其相关算法只关注每条轨迹的隐私保护,忽视对轨迹聚类组特征的保护.通过理论分析和实验验证发现,对采用聚类发布技术产生的轨迹数据进行二次聚类,可得到原始轨迹数据在发布之前的聚类组特征,从而可能导致隐私泄露.为了有效预防二次聚类攻击,提出一种(k,δ,Δ)-匿名模型和基于该模型的聚类杂交隐私保护轨迹数据发布算法CH-TDP,算法CH-TDP对采用(k,δ)-匿名模型及相关算法处理得到的聚类分组先进行组间杂交,而后再进行组内扰乱,其目标在防止出现二次聚类攻击的前提下,保证发布轨迹数据的质量不低于阈值Δ.实验对算法CH-TDP的可行性及有效性与同类算法进行比较分析,结果表明算法CH-TDP是有效可行的.  相似文献   

6.
针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题,提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC.首先,基于K-means++设计属性聚类方法,引入最大信息系数量化属性间的关联关系,并对具有高度关联关系的数据属性进行聚类.其次,对聚类产生的各个数据子集进行如下操作:计...  相似文献   

7.
8.
9.
针对传统的聚类算法存在隐私泄露的风险,提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验,表明该算法能够在一定的信息损失度范围内实现有效的数据聚类,也可以对聚类数据进行保护。  相似文献   

10.
针对现有差分隐私k-means算法对初始中心点敏感、用户位置数据误差偏大、可用性较低等问题,根据LBS的特点,引入人流密度的概念,提出一种基于差分隐私k-means的混合位置隐私保护方法。根据LBS特点将用户位置点分成离散位置点和非离散位置点,基于差分隐私技术,采用改进聚类算法对位置信息进行泛化和加噪;通过分析用户位置点的稀疏程度来确定离散点,对离散点位置信息采用基于差分隐私的单独加噪技术;对非离散点采用基于差分隐私的改进k-means算法进行泛化处理,以实现用户位置信息的隐私保护。仿真实验表明,在相同隐私预算的前提下,该方法具有较高的数据可用性。  相似文献   

11.
软大间隔聚类(Soft Large Margin Clustering)已被证明比其他诸如K-Means等诸多聚类算法具有更优的聚类性能与可解释性。然而作为单机聚类算法,仍有可扩展性的瓶颈,因此有人将其进行分布式改造。然而在进行分布式运算时,在迭代过程中存在节点之间相互通信的过程。如果某些节点存在隐私数据,那么数据集中的敏感信息在通信过程中就可能泄漏。为此,本文将分布式软大间隔聚类算法(Distributed Sparse SLMC)结合隐私保护,通过插入高斯噪声来提供零集中差分隐私(Zero Concentrated Differential Privacy),发展出差分隐私软大间隔聚类算法。最后通过理论证明其隐私保护效用,通过实验验证其具有与非联邦算法相近的收敛速度与聚类性能。  相似文献   

12.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

13.
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的.  相似文献   

14.
针对现有多属性数据隐私发布方法无法兼顾属性的敏感性差异和计算效率低的问题,提出了一种基于属性分割的差分隐私异构多属性数据发布方法 HMPrivBayes.首先,设计了满足差分隐私的谱聚类算法分割原始数据集,其中相似矩阵的生成借助于属性最大信息系数.其次,借助属性信息,该方法使用满足差分隐私的改进贝叶斯网络构建算法分别为每个数据子集构建贝叶斯网络.最后,以属性归一化风险熵为权重分配隐私预算,对贝叶斯网络提取的属性联合分布添加异构噪声扰动,实现了异构多属性数据保护.实验结果表明, HMPrivBayes可以在减少注入合成数据集中噪声量的同时,提高合成数据计算效率.  相似文献   

15.
同时兼具数值型和分类型属性的混合数据在实际应用中普通存在,混合数据的聚类分析越来越受到广泛的关注.为解决高维混合数据聚类中属性加权问题,提出了一种基于信息熵的混合数据属性加权聚类算法,以提升模式发现的效果.工作主要包括:首先为了更加准确客观地度量对象与类之间的差异性,设计了针对混合数据的扩展欧氏距离;然后,在信息熵框架下利用类内信息熵和类间信息熵给出了聚类结果中类内抱团性及一个类与其余类分离度的统一度量机制,并基于此给出了一种属性重要性度量方法,进而设计了一种基于信息熵的属性加权混合数据聚类算法.在10个UCI数据集上的实验结果表明,提出的算法在4种聚类评价指标下优于传统的属性未加权聚类算法和已有的属性加权聚类算法,并通过统计显著性检验表明本文提出算法的聚类结果与已有算法聚类结果具有显著差异性.  相似文献   

16.
在当今的网络中存在三种形式的数据流,连续型数据流,标称型数据流和混合属性数据流。由于目前在数据挖掘中大部分算法只能处理一种属性的数据流,而处理混合属性数据流的算法却很少,但在数据挖掘的实际应用中常常需要将不同属性的数据流进行相互区分。事实上研究人员在区分不同属性数据流时,首先是将不同属性的流进行聚类,其次是对不同属性的流进行识别。在查阅有了有关资料和参考文献后,本文提出了一种对混合属性数据流的聚类算法,该算法的聚类思想是:①提取混合属性数据流的分类属性,②使用k-近邻算法计算数据流分类属性的相似性,③根据k-近邻算法对数据流相似度的计算结果,使用k-均值聚类算法对混合属性数据流进行聚类,④给出聚类的算法。  相似文献   

17.
陈晋音  何辉豪 《自动化学报》2015,41(10):1798-1813
面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类 质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对 这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据 聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数 值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取 相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础 上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数 据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异 点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采 用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到 任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类 中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高 密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文 提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行 算法性能比较,验证本文提出算法具有较高的聚类质量.  相似文献   

18.
混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显著提高,同时聚类有效性指标基本相同。  相似文献   

19.
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号