首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于邻域属性熵的隐私保护数据干扰方法   总被引:2,自引:1,他引:2  
隐私保护微数据发布是数据隐私保护研究的一个热点,数据干扰是隐私保护微数据发布采用的一种有效解决方法.针对隐私保护聚类问题,提出一种隐私保护数据干扰方法NETPA,NETPA干扰方法通过对数据点及邻域点集的分析,借助信息论中熵的理论,提出邻域属性熵和邻域主属性等概念,对原始数据中数据点的邻域主属性值用其k邻域点集内数据点在该属性的均值进行干扰替换,在较好地维持原始数据k邻域关系的情况下达到保护原始数据隐私不泄露的目的.理论分析表明,NETPA干扰方法具有良好地避免隐私泄露的效果,同时可以较好地维持原始数据的聚类模式.实验采用DBSCAN和k-LDCHD聚类算法对干扰前后的数据进行聚类分析比对.实验结果表明,干扰前后数据聚类结果具有较高的相似度,算法是有效可行的.  相似文献   

2.
应用等距变换处理聚类分析中的隐私保护   总被引:2,自引:0,他引:2  
针对聚类分析时如何保护隐私的问题,提出了一种称为IBT(基于等距变换的数据转换)的算法。IBT先随机选择属性向量对,然后对属性向量对进行等距变换。变换过程中,根据所要求的相对隐私保护度来确定变换角度θ的选择范围,最终在符合要求的范围中随机选择变换的角度。实验结果表明, IBT能保持两点间距离不变,很好地扭曲了数据,保护隐私信息,且对聚类的结果没有影响。  相似文献   

3.
隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。  相似文献   

4.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

5.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

6.
针对分组无关问题模型存在隐私泄露的问题,提出一种改进的分组无关问题模型,采用随机响应的方法,通过对原始数据进行伪装变换处理,实现具有隐私保护的关联规则挖掘。实验结果表明,改进后的模型在伪装变换后的数据集上挖掘出的规则与原始数据规则相比,保证了低误差,具有较好的隐私保护性。  相似文献   

7.
阚莹莹  曹天杰 《计算机工程》2010,36(5):79-80,83
针对分组无关问题模型存在隐私泄露的问题,提出一种改进的分组无关问题模型,采用随机响应的方法,通过对原始数据进行伪装变换处理,实现具有隐私保护的关联规则挖掘。实验结果表明,改进后的模型在伪装变换后的数据集上挖掘出的规则与原始数据规则相比,保证了低误差,具有较好的隐私保护性。  相似文献   

8.
针对用电大数据环境下,非交互式差分隐私模型无法提供准确查询结果及计算开销较大的问题,提出一种基于最大信息系数与数据匿名化的差分隐私数据发布方法。从原始数据集中选出部分隐私属性作为特征集,利用最大信息系数选出与此特征集相关性高的数据作为隐私数据集,使用协同隐私保护算法对隐私数据集进行保护,发布满足差分隐私保护的用电大数据集。理论分析与实验结果表明,所提出的方法在提高大数据隐私保护处理效率同时,有效分化查询函数敏感性,提高发布数据可用性。  相似文献   

9.
面向挖掘应用的隐私保护数据发布要求对数据集进行隐藏的同时维持数据的挖掘可用性,数据扰动是解决该问题的有效方法.现有的面向聚类的数据扰动方法难以兼顾原始数据个体隐私和维持数据聚类可用性,对此提出了一种基于对数螺线的隐私保护数据干扰方法.通过构建面向聚类的隐私保护数据扰动模型,利用对数螺线对原始数据进行扰动隐藏,维持原始数据的k邻域关系稳定,实现数据集聚类可用性的有效维护;进一步提出多重对数螺线扰动的策略,提高隐私保护强度.理论分析和实验结果表明:文中方法能够有效地避免数据隐私泄露,同时维持数据的聚类可用性.  相似文献   

10.
一种有效的隐私保护关联规则挖掘方法   总被引:23,自引:3,他引:23  
隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.首先将数据干扰和查询限制这两种隐私保护的基本策略相结合,提出了一种新的数据随机处理方法,即部分隐藏的随机化回答(randomized response with partial hiding,简称RRPH)方法,以对原始数据进行变换和隐藏.然后以此为基础,针对经过RRPH方法处理后的数据,给出了一种简单而又高效的频繁项集生成算法,进而实现了隐私保护的关联规则挖掘.理论分析和实验结果均表明,基于RRPH的隐私保护关联规则挖掘方法具有很好的隐私性、准确性、高效性和适用性.  相似文献   

11.
数据库中的知识隐藏   总被引:4,自引:0,他引:4  
郭宇红  童云海  唐世渭  杨冬青 《软件学报》2007,18(11):2782-2799
伴随着数据共享、隐私保护、知识发现等多重需求而产生的PPDM(privacy preserving data mining),成为数据挖掘和信息安全领域近几年来的研究热点.PPDM中主要考虑两个层面的问题:一是敏感数据的隐藏与保护;二是数据中蕴涵的敏感知识的隐藏与保护(knowledge hiding in database,简称KHD).对目前的KHD技术进行分类和综述.首先介绍KHD产生的背景,然后着重讨论敏感关联规则隐藏技术和分类规则隐藏技术,接着探讨KHD方法的评估指标,最后归结出KHD后续研究的3个方向:数据修改技巧中基于目标距离的优化测度函数设计、数据重构技巧中的反向频繁项集挖掘以及基于数据抽样技巧的通用知识隐藏方法设计.  相似文献   

12.
Privacy Preserving Data Mining (PPDM) can prevent private data from disclosure in data mining. However, the current PPDM methods damaged the values of original data where knowledge from the mined data cannot be verified from the original data. In this paper, we combine the concept and technique based on the reversible data hiding to propose the reversible privacy preserving data mining scheme in order to solve the irrecoverable problem of PPDM. In the proposed privacy difference expansion (PDE) method, the original data is perturbed and embedded with a fragile watermark to accomplish privacy preserving and data integrity of mined data and to also recover the original data. Experimental tests are performed on classification accuracy, probabilistic information loss, and privacy disclosure risk used to evaluate the efficiency of PDE for privacy preserving and knowledge verification.  相似文献   

13.
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%.  相似文献   

14.
水平分布数据集的隐私保护关联挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
研究水平分布数据集的隐私保护关联规则挖掘算法。针对现有算法需要多次扫描数据集的缺点,提出一种只须对数据集进行2次扫描、基于分布式FP—tree的隐私保护挖掘算法。该算法可以有效降低通信量,能在保证准确度的同时保护原始数据。  相似文献   

15.
基于隐私保护的关联规则挖掘在挖掘项集之间的相关联系的同时,可以保护数据提供者的隐私。基于数据变换法,提出使用高效数据结构即倒排文件的隐私保护关联规则挖掘算法IFB-PPARM。针对特定的敏感规则以及给定的最小支持度和置信度,得到所需要修改的敏感事务并对其做适当的处理。算法只需对事务数据库做一次扫描,并且所有对事务的处理操作都在事务数据库映射成的倒排文件中进行。分析表明,该算法具有较好的隐私性和高效性。  相似文献   

16.
目前的数据挖掘技术基本上依据的是原始数据库中的信息,数据预处理技术要维护原始数据库的信息基本不变,只是进行简单的数据标准化、数据平整、异常点发现、缺失数据修补、数据离散等基本预处理工作,不能从根本上拓展原始数据库中的信息。同时,为保密起见,兴起的隐私保护数据挖掘技术对原始数据库中的敏感数据进行处理,隐藏了一些基本信息,进一步弱化了原始数据库中的信息含量。基于属性拓展的数据挖掘预处理技术,从原始数据库出发,通过属性拓展,拓展基础数据库所蕴含的信息,使数据挖掘能产生更深的隐藏关联规则。  相似文献   

17.
This paper explores the possibility of using multiplicative random projection matrices for privacy preserving distributed data mining. It specifically considers the problem of computing statistical aggregates like the inner product matrix, correlation coefficient matrix, and Euclidean distance matrix from distributed privacy sensitive data possibly owned by multiple parties. This class of problems is directly related to many other data-mining problems such as clustering, principal component analysis, and classification. This paper makes primary contributions on two different grounds. First, it explores independent component analysis as a possible tool for breaching privacy in deterministic multiplicative perturbation-based models such as random orthogonal transformation and random rotation. Then, it proposes an approximate random projection-based technique to improve the level of privacy protection while still preserving certain statistical characteristics of the data. The paper presents extensive theoretical analysis and experimental results. Experiments demonstrate that the proposed technique is effective and can be successfully used for different types of privacy-preserving data mining applications.  相似文献   

18.
隐私保护是数据挖掘中一个重要的研究方向,如何在不违反隐私规定的情况下,利用数据挖掘工具发现有意义的知识是一个热点问题。本文介绍了分布式数据挖掘中隐私保护的现状,着重介绍分布式数据挖掘中隐私保护问题和技术。  相似文献   

19.
Individual privacy may be compromised during the process of mining for valuable information, and the potential for data mining is hindered by the need to preserve privacy. It is well known that k-means clustering algorithms based on differential privacy require preserving privacy while maintaining the availability of clustering. However, it is difficult to balance both aspects in traditional algorithms. In this paper, an outlier-eliminated differential privacy (OEDP) k-means algorithm is proposed that both preserves privacy and improves clustering efficiency. The proposed approach selects the initial centre points in accordance with the distribution density of data points, and adds Laplacian noise to the original data for privacy preservation. Both a theoretical analysis and comparative experiments were conducted. The theoretical analysis shows that the proposed algorithm satisfies ε-differential privacy. Furthermore, the experimental results show that, compared to other methods, the proposed algorithm effectively preserves data privacy and improves the clustering results in terms of accuracy, stability, and availability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号