首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
傅鹤岗  曾凯 《计算机工程》2012,38(3):145-147,162
针对数据挖掘中私有信息的保护问题,提出一种多维敏感k-匿名隐私保护模型。将敏感属性泄露问题分为一般泄露、相似泄露、多维独立泄露、交叉泄露和多维混合数据泄露,在k-匿名的基础上,以聚类特性对多维敏感属性进行相似性标记,寻找匿名记录,计算剩余记录与已分组记录的相似性,泛化并发布满足匿名模型的数据集。实验结果表明,该模型适用于多维敏感数据,能防止隐私泄露,数据可用性较好。  相似文献   

2.
为了解决多维数值型敏感属性数据隐私保护方法中存在的准标识符属性信息损失大,以及不能满足用户对数值型敏感属性重要性排序的个性化需求问题,提出一种基于聚类和加权多维桶分组(MSB)的个性化隐私保护方法。首先,根据准标识符的相似程度,将数据集划分成若干准标识符属性值相近的子集;然后,考虑到用户对敏感属性的敏感程度不同,将敏感程度和多维桶的桶容量用于计算加权选择度和构建加权多维桶;最后,依此对数据进行分组和匿名化处理。选用UCI的标准Adult数据集中的8个属性进行实验,并与基于聚类和多维桶的数据隐私保护方法MNSACM和基于聚类和加权多维桶分组的个性化隐私保护方法WMNSAPM进行对比。实验结果表明,所提方法整体较优,并且在减少信息损失和运行时间方面明显优于对比方法,提高了数据质量和运行效率。  相似文献   

3.
徐龙琴  刘双印 《计算机应用》2011,31(4):999-1002
针对现有k-匿名方法直接用于多敏感属性数据发布中存在大量隐私泄露的问题,提出一种基于语义相似和多维加权的联合敏感属性隐私保护算法。该算法通过语义相似性反聚类思想和灵活设置多敏感属性值的权值,实现了联合敏感属性值和语义多样性分组的隐私保护,并根据应用需要为数据提供不同的隐私保护力度。实验结果表明,该方法能有效保护数据隐私,增强了数据发布的安全性和实用性。  相似文献   

4.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

5.
数据发布中面向多敏感属性的隐私保护技术*   总被引:1,自引:0,他引:1  
针对多敏感属性数据发布中存在的隐私泄露问题,在分析多维桶分组技术的基础上,继承了基于有损连接对隐私数据进行保护的思想,提出了一种(g,l)-分组方法,首先对多敏感属性根据各自的敏感度进行分组,然后将分组数作为多维桶的各个维的维数。同时还给出了2种不同的线性时间的分组算法:一般(g,l)-分组算法(GGLG)和最大敏感度优先算法(MSF)。实际数据集上的大量实验结果表明,该方法可以明显地减少隐私泄露,增强数据发布的安全性。  相似文献   

6.
针对多敏感属性数据中 l-多样性问题及现有隐私保护方法可能导致过高隐匿率的问题,提出一种基于属性分类的多敏感属性隐私保护方法。根据各自敏感属性值的多样性及隐私重要性对属性进行分类,分别设置不同的多样性参数l并进行分组,使之满足各自的多样性要求。实验结果表明,该方法可以有效地保护隐私数据,同时减少数据的隐匿率,提高共享数据的可用性。  相似文献   

7.
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。  相似文献   

8.
为了防止数据敏感属性的泄露,需要对数据敏感属性进行匿名保护。针对l-多样性模型当前已提出的算法大多是建立在概念层次结构的基础上,该方法会导致不必要的信息损失。为此,将基于属性泛化层次距离KACA算法中的距离度量方法与聚类结合,提出了一种基于聚类的数据敏感属性匿名保护算法。该算法按照l-多样性模型的要求对数据集进行聚类。实验结果表明,该算法既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度。  相似文献   

9.
基于聚类的高效(K,L)-匿名隐私保护   总被引:1,自引:0,他引:1  
为防止发布数据中敏感信息泄露,提出一种基于聚类的匿名保护算法.分析易被忽略的准标识符对敏感属性的影响,利用改进的K-means聚类算法对数据进行敏感属性聚类,使类内数据更相似.考虑等价类内敏感属性的多样性,对待发布表使用(K,L)-匿名算法进行聚类.实验结果表明,与传统K-匿名算法相比,该算法在实现隐私保护的同时,数据信息损失较少,执行时间较短.  相似文献   

10.
在区域医疗信息共享下,传统的匿名化隐私保护算法面对背景知识攻击时抵抗力较差。为此,提出一种敏感属性聚类匿名算法。利用敏感属性之间的关联进行微聚类,使等价组中敏感属性之间在相似性增大的同时存在差异性,从而较好地抵抗背景知识攻击,提高抗泄露风险能力。实验结果表明,该算法能减小数据信息表中的隐私泄露风险。  相似文献   

11.
针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题,提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先,基于K-means++设计属性聚类方法,引入最大信息系数量化属性间的关联关系,并对具有高度关联关系的数据属性进行聚类。其次,对聚类产生的各个数据子集进行如下操作:计算关系矩阵以缩减属性对的候选空间,并构建满足差分隐私的贝叶斯网络。最后,根据贝叶斯网络采样每个属性,并合成新的隐私数据集进行发布。与PrivBayes方法相比,PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明,所提方法在有效保证数据可用性的基础上,可以显著提高计算效率,为高维数据的隐私发布提供了新思路。  相似文献   

12.
针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。理论分析和实验结果表明,该方法能满足敏感属性个性化保护需求,同时可有效地降低信息损失,效率较高,生成的匿名数据集具有较好的可用性。  相似文献   

13.
针对现有多属性数据隐私发布方法无法兼顾属性的敏感性差异和计算效率低的问题, 提出了一种基于属性分割的差分隐私异构多属性数据发布方法HMPrivBayes. 首先, 设计了满足差分隐私的谱聚类算法分割原始数据集, 其中相似矩阵的生成借助于属性最大信息系数. 其次, 借助属性信息, 该方法使用满足差分隐私的改进贝叶斯网络构建算法分别为每个数据子集构建贝叶斯网络. 最后, 以属性归一化风险熵为权重分配隐私预算, 对贝叶斯网络提取的属性联合分布添加异构噪声扰动, 实现了异构多属性数据保护. 实验结果表明, HMPrivBayes可以在减少注入合成数据集中噪声量的同时, 提高合成数据计算效率.  相似文献   

14.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

15.
数据发布中面向多敏感属性的隐私保护方法   总被引:12,自引:0,他引:12  
现有的隐私数据发布技术通常关注单敏感属性数据,直接应用于多敏感属性数据会导致大量隐私信息的泄漏.文中首次对多敏感属性数据发布问题进行详细研究,继承了基于有损连接对隐私数据进行保护的思想,提出了针对多敏感属性隐私数据发布的多维桶分组技术——MSB(Multi-Sensitive Bucketization).为了避免高复杂性的穷举方法,首先提出3种不同的线性时间的贪心算法:最大桶优先算法(MBF)、最大单维容量优先算法(MSDCF)和最大多维容量优先算法(MMDCF).另外,针对实际应用中发布数据的重要性差异,提出加权多维桶分组技术.实际数据集上的大量实验结果表明,所提出的前3种算法的附加信息损失度为0.04,而隐匿率都低于0.06.加权多维桶分组技术对数据拥有者定义的重要信息的可发布性达到70%以上.  相似文献   

16.
数据转换是保护数据隐私的一种有效方法。针对如何保持转换后数据的可用性问题,提出了一种基于模糊集的隐私保护方法。该方法把隐私属性值转换成模糊值,然后把转换后的数据及其模糊偏移度一起公开,既保护了数据隐私,也标示了数据的相对大小,很好地保持了数据的可用性。实验采用k-平均聚类方法对转换前后的数据进行聚类分析对比,结果表明,转换前后数据的聚类结果有很高的相似性,满足保护隐私和保持可用性的要求。  相似文献   

17.
K-匿名是微数据发布隐私保护的一种重要方法。针对适应动态数据、实时相应等特征需求,提出基于R树的多维数据K匿名解决方案,包括对原有R树结构的改造方法及其相应的K-匿名化过程。基于Adult数据库,通过实验验证了本模型能够保证K匿名属性的正确性,同时由于分裂算法的影响,也能保证信息保存的完整性。  相似文献   

18.
提出了一种(p,a)sensitive k匿名模型,将敏感属性根据敏感度进行分组,然后给各分组设置不同的约束,并给出了(p,a)sensitive K匿名算法。实验结果表明该方法可以明显地减少隐私泄露,增强了数据发布的安全性。  相似文献   

19.
隐私保护数据发布是近年来研究的热点技术之一,主要研究如何在数据发布中避免敏感数据的泄露,又能保证数据发布的高效用性。基于模糊集的隐私保护模型,文中方法首先计算训练样本数据的先验概率,然后通过将单个敏感属性和两个相关联属性基于贝叶斯分类泛化实现隐私保护。通过实验验证基于模糊集的隐私保护模型(Fuzzy k-匿名)比经典隐私保护k-匿名模型具有更高的效率,隐私保护度高,数据可用性强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号