首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对轨迹匿名集中轨迹间的相似性过高导致的轨迹隐私泄露问题,提出抵制轨迹相似性攻击的轨迹(k,e)-匿名算法。该算法在预处理过程中,采用轨迹同步化处理方法减少信息损失;生成匿名集时,将轨迹斜率作为轨迹数据的敏感值,选择至少k条不同轨迹斜率的轨迹来满足轨迹k-匿名,并要求每个类中轨迹斜率差异值至少为e,以防止集合中轨迹的斜率相似性过高而导致隐私泄露。实验结果表明,该算法可以有效抵制轨迹相似性攻击,在减少信息损失的同时增强了轨迹数据可用性,更好地实现了轨迹隐私保护。  相似文献   

2.
基于聚类的高效k-匿名化算法   总被引:1,自引:0,他引:1  
KACA算法是一种较好的基于局部重编码的k-匿名化算法,它产生的匿名化微数据的信息损失少,数据可用性高.但该算法的效率低,不适合匿名化规模很大的微数据.为解决该问题,将高效的聚类算法--c-modes算法--与KACA算法结合,提出了c-modes-KACA算法.该算法首先采用C-modes算法将整个数据集划分为较大的类,然后采用KACA算法来分别k-匿名化这些类中元组数大于2k-1的类.实验表明,c-modes-KACA算法产生的信息损失量与KACA算法相近,效率却比KACA算法高得多.  相似文献   

3.
Datafly算法是数据发布环境下保护数据隐私的一种k-匿名方法,实现k-匿名时只对准标识符属性集中属性值种类最多的属性进行归纳。当准标识符属性集中只有一个属性的取值多样而其他属性取值具有同质性时,该算法可行。实际应用中数据的取值却往往不具有这种特点。针对这个问题,提出一种自底向上的支持多属性归纳k-匿名算法,并对该算法进行实验测试,结果表明该算法能有效降低原始数据的信息损失并能提高匿名化处理效率。  相似文献   

4.
为了在使用基于位置的服务时用户的位置信息不被不可信的位置服务提供商所泄漏,k-匿名位置隐私保护已被广泛研究.然而在集中匿名器被黑客控制时原k-匿名算法会泄漏所有用户的位置隐私,在进行k个最近邻目标查询时对网络的负载较重,而SpaceTwist算法又不能保证k-匿名.提出了一种基于经纬网格的递增KNN位置隐私保护查询算法,将经典的k-匿名算法与SpaceTwist算法相杂交,并引入经纬网格代替原来精确的位置上报给集中匿名器,从而解决了上述问题.实验证明基于经纬网格的递增KNN查询算法比较节省从集中匿名器到位置服务提供商的服务器之间的网络流量.  相似文献   

5.
现如今已提出了多种个性化的隐私保护算法,这些隐私保护算法大多是针对静态数据的,而动态新增数据集和原始匿名数据集的同步更新是一个亟待解决的问题。建立一种在(αk)-匿名数据基础上的增量更新方法,对于每个元组计算语义贴近度并选择合适的等价类进行元组更新,使得最终动态更新后的数据也满足(αk)-匿名。算法分析及仿真实验结果表明,算法以较小的信息损失和执行时进行数据动态更新。  相似文献   

6.
k匿名方法是一种重要的数据隐私保护方法.在应用k匿名方法保护社会网络中用户的隐私时,现有的方法对社会网络的结构进行匿名化处理,当攻击者了解了网络的文本信息后可以很容易识别出用户的身份等隐私信息.为此,提出一种包含结构和文本的k匿名方法.该方法在采用传统的节点度匿名化的基础上,将社会网络中的文本信息分成不同的值域,对每一个值域构建一个全局的层次结构树,对所有的值域采用集合枚举树来优化文本标记泛化时的信息丢失,并针对集合枚举树的特征提出了三种剪枝方法.实验表明,提出的k匿名方法在实现了社会网络的结构和文本匿名化的同时具有较低额的开销.  相似文献   

7.
k-匿名隐私保护模型中,k取值同时影响着k-匿名表的隐私保护程度和数据质量,因此,如何选择k值以达到隐私保护和数据质量的共赢具有重要意义.在对k取值和隐私保护、数据质量关系分析和证明的基础上,根据不同情况下的k-匿名表隐私泄露概率公式,对满足隐私保护要求的k取值范围进行了分析;根据k-匿名表的数据质量公式对满足数据质量要求的k取值范围进行了分析.根据满足隐私保护和数据质量要求的k取值之间的关系,给出了k值的优化选择算法.  相似文献   

8.
MDAV算法是一种高效的微聚集算法,但它未考虑等价类中敏感属性多样性问题,生成的匿名表不能抵制同质性攻击和背景知识攻击。针对该问题,提出一种能够实现(k,e)-匿名模型的MDAV算法,简称(k,e)-MDAV算法。该算法将距离类中心最近的至少k个不同敏感值的元组聚为一类,并要求每个类内敏感属性值最大差异至少为e。实验结果表明,该算法能够生成满足(k,e)-匿名模型的匿名表。  相似文献   

9.
事务型数据发布时的隐私保护是隐私保护数据发布研究的一个热点。本文针对事务型数据发布的隐私保护问题,以km-匿名模型为基础,提出一种新的(k,m,1)-匿名模型,并设计出基于该模型的匿名算法,算法通过添加噪声的扰乱方式实现数据匿名化。基于真实数据集的仿真实验和对匿名后事务型数据的关联规则分析表明。本文的算法可安全且高效地实现事务型数据发布的隐私保护,同时保证发布数据的可用性较高。  相似文献   

10.
随着信息技术的发展,医疗数据发布中的隐私保护技术一直是数据隐私研究的热点,医疗数据发布的同步更新是其中一个重要问题。为解决医疗数据匿名发布的同步问题,提出了一种建立在(α,k)-匿名数据基础上的支持数据动态更新的算法——(α,k)-UPDATE。该算法通过对语义贴近度的计算,在(α,k)-匿名数据集中选择最贴近的等价类,再进行相应的更新操作。更新后的匿名数据集满足(α,k)-匿名约束,可有效地保护患者的隐私信息。实验结果表明,该算法能在实际环境中稳定、有效地运行,在满足医疗数据实时一致性的同时,具有运算时间短、信息损失度小的优点。  相似文献   

11.
一种新的商覆盖立方体生成算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种的新的商覆盖立方体生成算法GroupDFS,将待计算的基本表先依据各维属性进行Group By运算,再对得到的结果集采用DFS算法计算其上界集,所得结果即为原待计算基本表的商覆盖立方体。GroupDFS算法结合了2N算法和DFS算法的优点,相对于DFS算法缩短了计算所需的时间。采用weather数据集进行的实验结果表明,采用GroupDFS计算商覆盖立方体所需时间仅为采用DFS算法时的45%。  相似文献   

12.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

13.
基于位置服务中的隐私保护方法存在只关注保护用户位置和标识信息的问题,当匿名集中提出的查询均属于敏感查询时,将产生敏感同质性攻击。针对此问题,提出了个性化(k,p)-敏感匿名模型。并基于此模型,提出了基于树型索引结构的匿名算法--PTreeCA。空间数据库中的树型索引具有两大特点:1)空间中的用户已根据位置邻近性在树中被大致分组;2)在树的中间节点中可以存储聚集信息。利用这两个特点,PTreeCA可以从查询用户所在叶子节点和其兄弟节点中寻找匿名集,提高了匿名算法的效率。最后,在模拟和真实数据集上进行了实验,所提算法平均匿名成功率可达100%,平均匿名时间只有4ms。当隐私级别较低和适中时,PTreeCA在匿名成功率、匿名时间和匿名代价方面均表现出良好性能。  相似文献   

14.
在社交网络中, 为防范用户隐私泄漏, 在用户数据发布前需要做匿名化处理. 针对以节点度数为背景知识的隐私攻击, 将社交网络匿名化问题建模为图的k度匿名化问题; 其主要方法是对图添加尽可能少的边或点来满足度匿名化要求, 其中要求添加边或点较少是期望尽可能保持原图结构特性. 目前, 加边类算法并不能很好地保留平均路径长度等结构特性; 加边且可加点类算法尽管能更好地保留原图结构特性, 但添加的边或点较多. 本文融合两类算法的策略提出改进算法. 新算法利用贪心法生成匿名度序列, 然后基于社区结构加边, 并且优先满足其匿名代价高于平均匿名代价的节点的匿名化要求; 若加边不能完成匿名化, 则通过加点实现图匿名化. 真实数据集上的实验结果表明新算法能更好地保留图的几种典型的结构特性, 并且添加的边或点更少.  相似文献   

15.
基于杂度增益与层次聚类的数据匿名方法   总被引:2,自引:0,他引:2  
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性.  相似文献   

16.
Microaggregation is a masking mechanism to protect confidential data in a public release. This technique can produce a k-anonymous dataset where data records are partitioned into groups of at least k members. In each group, a representative centroid is computed by aggregating the group members and is published instead of the original records. In a conventional microaggregation algorithm, the centroids are computed based on simple arithmetic mean of group members. This naïve formulation does not consider the proximity of the published values to the original ones, so an intruder may be able to guess the original values. This paper proposes a disclosure-aware aggregation model, where published values are computed in a given distance from the original ones to attain a more protected and useful published dataset. Empirical results show the superiority of the proposed method in achieving a better trade-off point between disclosure risk and information loss in comparison with other similar anonymization techniques.  相似文献   

17.
The rise of mobile technologies in the last decade has led to vast amounts of location information generated by individuals. From the knowledge discovery point of view, these data are quite valuable, but the inherent personal information in the data raises privacy concerns. There exists many algorithms in the literature to satisfy the privacy requirements of individuals, by generalizing, perturbing, and suppressing their data. Current techniques that try to ensure a level of indistinguishability between trajectories in a dataset are direct applications of \(k\) -anonymity, thus suffer from the shortcomings of \(k\) -anonymity such as the lack of diversity in sensitive regions. Moreover, these techniques fail to incorporate some common background knowledge, an adversary might have such as the underlying map, the traffic density, and the anonymization algorithm itself. We propose a new privacy metric \(p\) -confidentiality that ensures location diversity by bounding the probability of a user visiting a sensitive location with the \(p\) input parameter. We perform our probabilistic analysis based on the background knowledge of the adversary. Instead of grouping the trajectories, we anonymize the underlying map, that is, we group nodes (points of interest) to create obfuscation areas around sensitive locations. The groups are formed in such a way that the parts of trajectories entering the groups, coupled with the adversary background, do not increase the adversary’s belief in violating the \(p\) -confidentiality. We then use the map anonymization as a model to anonymize the trajectories. We prove that our algorithm is resistant to reverse-engineering attacks when the statistics required for map anonymization is publicly available. We empirically evaluate the performance of our algorithm and show that location diversity can be satisfied effectively.  相似文献   

18.
Enlarging the Margins in Perceptron Decision Trees   总被引:4,自引:0,他引:4  
Capacity control in perceptron decision trees is typically performed by controlling their size. We prove that other quantities can be as relevant to reduce their flexibility and combat overfitting. In particular, we provide an upper bound on the generalization error which depends both on the size of the tree and on the margin of the decision nodes. So enlarging the margin in perceptron decision trees will reduce the upper bound on generalization error. Based on this analysis, we introduce three new algorithms, which can induce large margin perceptron decision trees. To assess the effect of the large margin bias, OC1 (Journal of Artificial Intelligence Research, 1994, 2, 1–32.) of Murthy, Kasif and Salzberg, a well-known system for inducing perceptron decision trees, is used as the baseline algorithm. An extensive experimental study on real world data showed that all three new algorithms perform better or at least not significantly worse than OC1 on almost every dataset with only one exception. OC1 performed worse than the best margin-based method on every dataset.  相似文献   

19.
基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。  相似文献   

20.
In recent years, online social networks have become a part of everyday life for millions of individuals. Also, data analysts have found a fertile field for analyzing user behavior at individual and collective levels, for academic and commercial reasons. On the other hand, there are many risks for user privacy, as information a user may wish to remain private becomes evident upon analysis. However, when data is anonymized to make it safe for publication in the public domain, information is inevitably lost with respect to the original version, a significant aspect of social networks being the local neighborhood of a user and its associated data. Current anonymization techniques are good at identifying risks and minimizing them, but not so good at maintaining local contextual data which relate users in a social network. Thus, improving this aspect will have a high impact on the data utility of anonymized social networks. Also, there is a lack of systems which facilitate the work of a data analyst in anonymizing this type of data structures and performing empirical experiments in a controlled manner on different datasets. Hence, in the present work we address these issues by designing and implementing a sophisticated synthetic data generator together with an anonymization processor with strict privacy guarantees and which takes into account the local neighborhood when anonymizing. All this is done for a complex dataset which can be fitted to a real dataset in terms of data profiles and distributions. In the empirical section we perform experiments to demonstrate the scalability of the method and the improvement in terms of reduction of information loss with respect to approaches which do not consider the local neighborhood context when anonymizing.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号