首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 80 毫秒
1.
针对现有的匿名方案往往较少考虑离群数据的敏感问题以及信息损失与时间效率的最优化问题,提出一种基于约束聚类的k-匿名隐私保护方法.通过K近邻思想划分初始集群,根据设定的阈值δ将集群进行重新划分,划分过程始终遵循信息损失最小化原则,得到每个等价类元组数都在k与2k之间,过程中分类考察准标识符属性并充分考虑离群点对聚类结果的...  相似文献   

2.
面向表数据发布隐私保护的贪心聚类匿名方法   总被引:1,自引:0,他引:1  
为了防范隐私泄露,表数据一般需要匿名处理后发布.现有匿名方案较少分类考察准标识属性概化,并缺少同时考虑信息损失量和时间效率的最优化.利用贪心法和聚类划分的思想,提出一种贪心聚类匿名方法:分类概化准标识属性,并分别度量其信息损失,有利于减小并合理评价信息损失.对元组间距离和元组与等价类距离,建立与最小合并概化信息损失值正相关的距离定义,聚类过程始终选取具有最小距离值的元组添加,从而保证信息损失总量趋于最小.按照k值控制逐一聚类,实现等价类均衡划分,减少了距离计算总量,节省了运行时间.实验结果表明,该方法在减少信息损失和运行时间方面是有效的.  相似文献   

3.
桂琼  程小辉 《计算机应用》2013,33(2):412-416
为了防止链接攻击导致隐私的泄露,同时尽可能降低匿名保护时的信息损失,提出(λα, k)-分级匿名模型。该模型根据隐私保护的需求程度,将各敏感属性值划分为高、中、低三个等级类,通过隐私保护度参数λ灵活控制泄露风险。在此基础上,给出一种基于聚类的分级匿名方法。该方法采用一种新层次聚类算法,并针对准标识符中数值型属性与分类型属性采用灵活的概化策略。实验结果显示,该方法能够满足敏感属性的分级匿名保护需求,同时有效地减少信息损失。  相似文献   

4.
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性.从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决.针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制.通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化;最后给出了问题求解的理论证明和实验分析.实验结果表明该机制能最大程度减少聚类匿名的信息损失,并且在运行时间方面是可行有效的.  相似文献   

5.
社交网络中积累的海量信息构成一类图大数据,为防范隐私泄露,一般在发布此类数据时需要做匿名化处理.针对现有匿名方案难以防范同时以结构和属性信息为背景知识的攻击的不足,研究一种基于节点连接结构和属性值的属性图聚类匿名化方法,利用属性图表示社交网络数据,综合根据节点间的结构和属性相似度,将图中所有节点聚类成一些包含节点个数不小于k的超点,特别针对各超点进行匿名化处理.该方法中,超点的子图隐匿和属性概化可以分别防范一切基于结构和属性背景知识的识别攻击.另外,聚类过程平衡了节点间的连接紧密性和属性值相近性,有利于减小结构和属性的总体信息损失值,较好地维持数据的可用性.实验结果表明了该方法在实现算法功能和减少信息损失方面的有效性.  相似文献   

6.
一种基于聚类的数据匿名方法   总被引:10,自引:0,他引:10  
王智慧  许俭  汪卫  施伯乐 《软件学报》2010,21(4):680-693
为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.  相似文献   

7.
基于杂度增益与层次聚类的数据匿名方法   总被引:2,自引:0,他引:2  
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性.  相似文献   

8.
为提高匿名化后数据的可用性,给出了一种加权确定惩罚模型作为数据有用性的度量方法,提出了两种基于局部聚类的数据匿名化算法。通过真实数据实验评估,该算法能够很好地降低实现匿名保护时概化处理所带来的信息损失。  相似文献   

9.
聚类匿名是一种典型的社交网数据发布隐私保护方案,其基础工作是图聚类.图聚类为一类NP难的组合优化问题,便于使用搜索优化算法.现有图聚类匿名方法缺少此类启发式搜索算法.为此,研究一种利用遗传算法实现的图聚类匿名方法,利用贪心法进行结点聚类预划分,以构造初始种群;依据关系拟合理论建立个体适应度函数;根据个体编码特点,分别提出一种多点错位的交叉算子和基因位交换的变异算子.图聚类模型综合考虑了结点的结构和属性信息,而遗传算法的全局化搜索优化能力保障了图聚类质量,因此,该方法具有较强的隐私保护性.实验表明了该方法在提高聚类质量和减小信息损失方面的有效性.  相似文献   

10.
近年来,可穿戴设备被广泛地被应用于日常生活。用户量增加造成的可穿戴设备数据重发布是导致隐私泄漏的一个重要原因。为此,数据匿名化重发布方法受到了广泛关注。然而,现有的数据匿名化重发布方法存在两个方面的不足:一方面,现有的数据匿名化重发布算法可能会造成严重的信息损失或用户隐私数据的泄漏;另一方面,现有的数据匿名化重发布算法在兼顾保护用户隐私和减少信息损失的情况下会造成较高的发布成本。为了兼顾隐私安全和数据可用性,并且提高数据重发布算法的效率,结合可穿戴设备自身的特点,提出基于聚类的数据匿名化重发布算法,该算法直接对增量数据进行基于聚类匿名化操作,使数据匿名化重发布更为高效。此外,在数据量较大的应用场景中,基于聚类的数据匿名化重发布算法可以有效减少信息损失。实验结果表明,基于聚类的数据匿名化重发布算法能够在保证用户隐私安全的前提下减少信息的损失并且提高执行效率。  相似文献   

11.
针对数据发布中的隐私泄露问题, 分析了对数据集进行匿名保护需要满足的条件, 提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理, 将数据集中的元组划分到若干个等价群中, 然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中, 以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并, 可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨, 提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明, 该方法是有效可行的。  相似文献   

12.
王莉  宫照煊 《计算机应用研究》2010,27(11):4108-4110
近年来提出的随机匿名化方法随机地拆分记录中属性值之间的关系,并通过维持数据间的统计关系来保存知识。在大多数匿名化算法中知识往往是被丢失的,因而造成数据的实用性较低。但隐私性与实用性是两个矛盾的目标,随机匿名化算法很难找寻到较好的结果,因此提出一种基于多目标免疫克隆进化的随机匿名化算法来搜索隐私性和使用性都较高的结果。仿真实验表明,本方法能求得较好的结果。  相似文献   

13.
In data mining and knowledge discovery, there are two conflicting goals: privacy protection and knowledge preservation. On the one hand, we anonymize data to protect privacy; on the other hand, we allow miners to discover useful knowledge from anonymized data. In this paper, we present an anonymization method which provides both privacy protection and knowledge preservation. Unlike most anonymization methods, where data are generalized or permuted, our method anonymizes data by randomly breaking links among attribute values in records. By data randomization, our method maintains statistical relations among data to preserve knowledge, whereas in most anonymization methods, knowledge is lost. Thus the data anonymized by our method maintains useful knowledge for statistical study. Furthermore, we propose an enhanced algorithm for extra privacy protection to tackle the situation where the user’s prior knowledge of original data may cause privacy leakage. The privacy levels and the accuracy of knowledge preservation of our method, along with their relations to the parameters in the method are analyzed. Experiment results demonstrate that our method is effective on both privacy protection and knowledge preservation comparing with existing methods.  相似文献   

14.
针对用电大数据环境下,非交互式差分隐私模型无法提供准确查询结果及计算开销较大的问题,提出一种基于最大信息系数与数据匿名化的差分隐私数据发布方法。从原始数据集中选出部分隐私属性作为特征集,利用最大信息系数选出与此特征集相关性高的数据作为隐私数据集,使用协同隐私保护算法对隐私数据集进行保护,发布满足差分隐私保护的用电大数据集。理论分析与实验结果表明,所提出的方法在提高大数据隐私保护处理效率同时,有效分化查询函数敏感性,提高发布数据可用性。  相似文献   

15.
针对快递单号被盗取和快递单信息保护不当造成的隐私泄露问题进行了研究, 提出了一种新型K-匿名模型对快递信息进行匿名处理。该方法通过随机打破记录中属性值之间的关系来匿名数据, 相比于其他传统方法, 克服了数据间统计关系丢失的问题和先验知识攻击。实验结果表明, 新型K-匿名方法能够加强隐私保护和提高知识保护的准确性。  相似文献   

16.
为解决移动对象轨迹信息被大量收集所导致的轨迹隐私泄露问题,提出了基于假轨迹的轨迹隐私保护算法。在该算法中,考虑了用户的暴露位置,基于轨迹相似性和位置多样性的综合度量,设计了一种启发式规则来选择假轨迹,从而使得生成的假轨迹能有效隐匿真实轨迹和敏感位置。此外,还提出了轨迹有向图策略和基于网格划分的地图策略来优化算法的执行效率。基于真实的轨迹数据进行实验测试和分析,实验结果表明所提算法在保持数据可用性的情况下能有效保护真实轨迹。  相似文献   

17.
为了解决多维数值型敏感属性数据隐私保护方法中存在的准标识符属性信息损失大,以及不能满足用户对数值型敏感属性重要性排序的个性化需求问题,提出一种基于聚类和加权多维桶分组(MSB)的个性化隐私保护方法。首先,根据准标识符的相似程度,将数据集划分成若干准标识符属性值相近的子集;然后,考虑到用户对敏感属性的敏感程度不同,将敏感程度和多维桶的桶容量用于计算加权选择度和构建加权多维桶;最后,依此对数据进行分组和匿名化处理。选用UCI的标准Adult数据集中的8个属性进行实验,并与基于聚类和多维桶的数据隐私保护方法MNSACM和基于聚类和加权多维桶分组的个性化隐私保护方法WMNSAPM进行对比。实验结果表明,所提方法整体较优,并且在减少信息损失和运行时间方面明显优于对比方法,提高了数据质量和运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号