首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性.从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决.针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制.通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化;最后给出了问题求解的理论证明和实验分析.实验结果表明该机制能最大程度减少聚类匿名的信息损失,并且在运行时间方面是可行有效的.  相似文献   

2.
针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。理论分析和实验结果表明,该方法能满足敏感属性个性化保护需求,同时可有效地降低信息损失,效率较高,生成的匿名数据集具有较好的可用性。  相似文献   

3.
针对现有的匿名方案往往较少考虑离群数据的敏感问题以及信息损失与时间效率的最优化问题,提出一种基于约束聚类的k-匿名隐私保护方法.通过K近邻思想划分初始集群,根据设定的阈值δ将集群进行重新划分,划分过程始终遵循信息损失最小化原则,得到每个等价类元组数都在k与2k之间,过程中分类考察准标识符属性并充分考虑离群点对聚类结果的影响,有效降低匿名过程中的信息损失.实验结果表明,该方法有效节省了执行时间并降低了信息损失.  相似文献   

4.
文章针对公开数据集上的隐私数据保护展开研究,分析了经典的k匿名算法在处理连续发布的数据集时存在的不足,在新的应用场景下对其进行改进。文章提出的算法通过增量式的数据处理技术减少了时间开销,适用于大规模数据集的快速连续发布。算法通过为每个数据元组选择最优等价类,有效控制了信息损失。算法以敏感属性值泛化技术代替了伪造元组的引入,保证了数据集上只包含真实数据,提高了数据集的可用性。通过实例分析发现提出的算法可以很好的解决连续发布数据集上的隐私保护问题。  相似文献   

5.
面向表数据发布隐私保护的贪心聚类匿名方法   总被引:1,自引:0,他引:1  
为了防范隐私泄露,表数据一般需要匿名处理后发布.现有匿名方案较少分类考察准标识属性概化,并缺少同时考虑信息损失量和时间效率的最优化.利用贪心法和聚类划分的思想,提出一种贪心聚类匿名方法:分类概化准标识属性,并分别度量其信息损失,有利于减小并合理评价信息损失.对元组间距离和元组与等价类距离,建立与最小合并概化信息损失值正相关的距离定义,聚类过程始终选取具有最小距离值的元组添加,从而保证信息损失总量趋于最小.按照k值控制逐一聚类,实现等价类均衡划分,减少了距离计算总量,节省了运行时间.实验结果表明,该方法在减少信息损失和运行时间方面是有效的.  相似文献   

6.
基于杂度增益与层次聚类的数据匿名方法   总被引:2,自引:0,他引:2  
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性.  相似文献   

7.
现如今已提出了多种个性化的隐私保护算法,这些隐私保护算法大多是针对静态数据的,而动态新增数据集和原始匿名数据集的同步更新是一个亟待解决的问题。建立一种在(αk)-匿名数据基础上的增量更新方法,对于每个元组计算语义贴近度并选择合适的等价类进行元组更新,使得最终动态更新后的数据也满足(αk)-匿名。算法分析及仿真实验结果表明,算法以较小的信息损失和执行时进行数据动态更新。  相似文献   

8.
宋健  许国艳  夭荣朋 《计算机应用》2016,36(10):2753-2757
在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于差分隐私的数据匿名化隐私保护方法,构建了基于差分隐私的数据匿名化隐私保护模型;在利用微聚集MDAV算法划分相似等价类并在匿名属性过程中引入SuLQ框架设计得到ε-MDAV算法,同时选用Laplace实现机制合理控制隐私保护预算。通过对比不同隐私保护预算下可用性和安全性的变化,验证了该方法可以在保证数据高可用性的前提下有效地提升数据的安全性能。  相似文献   

9.
基于聚类的高效k-匿名化算法   总被引:1,自引:0,他引:1  
KACA算法是一种较好的基于局部重编码的k-匿名化算法,它产生的匿名化微数据的信息损失少,数据可用性高.但该算法的效率低,不适合匿名化规模很大的微数据.为解决该问题,将高效的聚类算法--c-modes算法--与KACA算法结合,提出了c-modes-KACA算法.该算法首先采用C-modes算法将整个数据集划分为较大的类,然后采用KACA算法来分别k-匿名化这些类中元组数大于2k-1的类.实验表明,c-modes-KACA算法产生的信息损失量与KACA算法相近,效率却比KACA算法高得多.  相似文献   

10.
基于聚类的敏感属性l-多样性匿名化算法   总被引:1,自引:0,他引:1  
提出了基于聚类的敏感属性l-多样性匿名化算法,该算法生成的每个聚类至少有l个不同的敏感属性值,每个聚类的大小介于l和2l-1之间,以达到最优划分并提高教据的安全性.同时,该算法生成聚类候选记录集以减少不必要的计算和比较,生成聚类时总是选择与聚类质心信息损失最小的记录,提高了算法效率并减少信息的损失.实验结果表明,该算法是高效的,且生成的匿名数据集具有较高的可用性.  相似文献   

11.
医疗数据发布中属性顺序敏感的隐私保护方法   总被引:2,自引:1,他引:1  
高爱强  刁麓弘 《软件学报》2009,20(Z1):314-320
隐私保护已成为包含微数据应用诸如医疗数据发布共享或数据挖掘中的一个重要问题.基于全局重编码或局部重编码的匿名性方法,通过保证每一条数据记录都至少有某个数量的其他记录与其具有同样的特征来保护隐私性.如果考虑到对处理后的数据进行属性顺序敏感的数据分析任务,这类方法并不能很好地完成任务.研究基于数据可用性指标的匿名性方法,着重考虑数据分析任务中的属性顺序对于匿名性方法的影响.从多维数据匿名的概念出发,讨论用于该类情况下的数据匿名性方法.在公开数据集上的实验结果表明,该方法对于上述问题是有效的,并且效率并未受到影响.  相似文献   

12.
针对用电大数据环境下,非交互式差分隐私模型无法提供准确查询结果及计算开销较大的问题,提出一种基于最大信息系数与数据匿名化的差分隐私数据发布方法。从原始数据集中选出部分隐私属性作为特征集,利用最大信息系数选出与此特征集相关性高的数据作为隐私数据集,使用协同隐私保护算法对隐私数据集进行保护,发布满足差分隐私保护的用电大数据集。理论分析与实验结果表明,所提出的方法在提高大数据隐私保护处理效率同时,有效分化查询函数敏感性,提高发布数据可用性。  相似文献   

13.
Multirelational k-Anonymity   总被引:1,自引:0,他引:1  
k-Anonymity protects privacy by ensuring that data cannot be linked to a single individual. In a k-anonymous data set, any identifying information occurs in at least k tuples. Much research has been done to modify a single-table data set to satisfy anonymity constraints. This paper extends the definitions of k-anonymity to multiple relations and shows that previously proposed methodologies either fail to protect privacy or overly reduce the utility of the data in a multiple relation setting. We also propose two new clustering algorithms to achieve multirelational anonymity. Experiments show the effectiveness of the approach in terms of utility and efficiency.  相似文献   

14.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

15.
The inconceivable ability and common practice to collect personal data as well as the power of data‐driven approaches to businesses, services and security nowadays also introduce significant privacy issues. There have been extensive studies on addressing privacy preserving problems in the data mining community but relatively few have provided supervised control over the anonymization process. Preserving both the value and privacy of the data is largely a non‐trivial task. We present the design and evaluation of a visual interface that assists users in employing commonly used data anonymization techniques for making privacy preserving visualizations. Specifically, we focus on event sequence data due to its vulnerability to privacy concerns. Our interface is designed for data owners to examine potential privacy issues, obfuscate information as suggested by the algorithm and fine‐tune the results per their discretion. Multiple use case scenarios demonstrate the utility of our design. A user study similarly investigates the effectiveness of the privacy preserving strategies. Our results show that using a visual‐based interface is effective for identifying potential privacy issues, for revealing underlying anonymization processes, and for allowing users to balance between data utility and privacy.  相似文献   

16.
K-anonymisation is an approach to protecting individuals from being identified from data.Good k-anonymisations should retain data utility and preserve privacy,but few methods have considered these two conflicting requirements together. In this paper,we extend our previous work on a clustering-based method for balancing data utility and privacy protection, and propose a set of heuristics to improve its effectiveness.We introduce new clustering criteria that treat utility and privacy on equal terms and propose sampling-based techniques to optimally set up its parameters.Extensive experiments show that the extended method achieves good accuracy in query answering and is able to prevent linking attacks effectively.  相似文献   

17.
We present GSUVis, a visualization tool designed to provide better understanding of location‐based social network (LBSN) data. LBSN data is one of the most important sources of information for transportation, marketing, health, and public safety. LBSN data consumers are interested in accessing and analysing data that is as complete and as accurate as possible. However, LBSN data contains sensitive information about individuals. Consequently, data anonymization is of critical importance if this data is to be made available to consumers. However, anonymization commonly reduces the utility of information available. Working with privacy experts, we designed GSUVis a visual analytic tool to help experts better understand the effects of anonymization techniques on LBSN data utility. One of GSUVis's primary goals is to make it possible for people to use LBSN data, without requiring them to gain deep knowledge about data anonymization. To inform the design of GSUVis, we interviewed privacy experts, and collected their tasks and system requirements. Based on this understanding, we designed and implemented GSUVis. It applies two anonymization algorithms for social and location trajectory data to a real‐world LBSN dataset and visualizes the data both before and after anonymization. Through feedback from domain experts, we reflect on the effectiveness of GSUVis and the impact of anonymization using visualization.  相似文献   

18.
龚奇源  杨明  罗军舟 《软件学报》2013,24(12):2883-2896
在数据发布过程中,为了防止隐私泄露,需要对数据的准标识符属性进行匿名化,以降低链接攻击风险,实现对数据所有者敏感属性的匿名保护.现有数据匿名方法都建立在数据无缺失的假设基础上,在数据存在缺失的情况下会直接丢弃相关的记录,造成了匿名化前后数据特性不一致.针对缺失数据匿名方法进行研究,基于k-匿名模型提出面向缺失数据的数据匿名方法KAIM(k-anonymity for incomplete mircrodata),在保留包含缺失记录的前提下,使在同一属性上缺失的记录尽量被分配到同一分组参与泛化.该方法将分组泛化前后的信息熵变化作为距离,基于改进的k-member 算法对数据进行聚类分组,最后通过基于泛化层次的局部泛化算法对组内数据进行泛化.实际数据集的大量实验结果表明,KAIM 造成信息缺损仅为现有算法的43.8%,可以最大程度地保障匿名化前后数据特性不变.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号