首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
面向挖掘应用的隐私保护数据发布要求对数据集进行隐藏的同时维持数据的挖掘可用性,数据扰动是解决该问题的有效方法.现有的面向聚类的数据扰动方法难以兼顾原始数据个体隐私和维持数据聚类可用性,对此提出了一种基于对数螺线的隐私保护数据干扰方法.通过构建面向聚类的隐私保护数据扰动模型,利用对数螺线对原始数据进行扰动隐藏,维持原始数据的k邻域关系稳定,实现数据集聚类可用性的有效维护;进一步提出多重对数螺线扰动的策略,提高隐私保护强度.理论分析和实验结果表明:文中方法能够有效地避免数据隐私泄露,同时维持数据的聚类可用性.  相似文献   

2.
现有基于聚类的轨迹隐私保护算法在衡量轨迹间的相似性时大多以空间特征为标准,忽略了轨迹蕴含的其他方面的特性对轨迹相似性的影响。针对这一情况可能导致的匿名后数据可用性较低的问题,提出了一种基于轨迹多特性的隐私保护算法。该算法考虑了轨迹数据的不确定性,综合方向、速度、时间和空间4个特性的差异作为轨迹相似性度量的依据,以提高轨迹聚类过程中同一聚类集合中轨迹之间的相似度;在此基础上,通过空间平移的方式实现同一聚类集合中轨迹的k-匿名。实验结果表明,与经典隐私保护算法相比,在满足一定隐私保护需求的前提下,采用所提算法实施隐私保护之后的轨迹数据整体具有较高的数据可用性。  相似文献   

3.
面向聚类的数据隐藏通常使用数据扰动技术防止敏感信息泄露。针对现有的面向聚类的数据扰动方法隐私保护度低的问题,提出一种基于平面反射的数据扰动方法,将发布对象的全部属性两两配对构成平面上的点,再随机选择一条直线,作每对属性关于直线的对称点,转换后的数据即为发布的数据。实验结果表明,这种方法具有较好的隐私保护度和聚类可用性,且对高维数据有良好的适应性。  相似文献   

4.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

5.
差分隐私保护k- means聚类方法研究   总被引:3,自引:1,他引:2  
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足e-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。  相似文献   

6.
面向聚类的数据隐藏发布研究   总被引:3,自引:0,他引:3  
数据隐藏发布在保护数据隐私和维持数据可用性间寻求一种折中,近年来得到了研究者的持续关注.数据隐藏发布的起因和目标都源于数据的使用价值,聚类作为实现数据深层使用价值的一个重要步骤,在数据挖掘领域得到了广泛的研究.聚类对数据个体特征的依赖与隐藏操作弱化个体特征的主导思想间的矛盾,使得面向聚类的数据隐藏发布成为一个难点.对面向聚类的隐私保护数据发布领域已有研究成果进行了总结,从保存聚类特征粒度的角度,分析保存聚类特征粒度与聚类可用性、隐私保护安全性间的关系;从维持数据聚类可用性效果角度对匿名、随机化、数据交换、人工合成数据替换等主要隐藏方法的原理、特点进行了分析.在对已有技术方法深入对比分析的基础上,指出了面向聚类的数据隐藏发布领域待解决的一些难点问题和未来发展方向.  相似文献   

7.
张国鹏  陈学斌  王豪石  翟冉  马征 《计算机应用》2022,42(12):3813-3821
为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用户的扰动数据后以最大限度恢复原始数据集;然后,执行K-Prototypes聚类算法,在聚类过程中,使用相异性度量方法确定初始聚类中心,并利用熵权法重新定义新的距离计算公式。理论分析和实验结果表明,所提方案与基于中心化差分隐私(CDP)技术的ODPC算法相比,在Adult和Heart数据集上的平均准确率分别提高了2.95%和12.41%,有效提高了聚类的可用性。同时,LDPK-Prototypes扩大了数据之间的差异性,有效避免了局部最优,提高了聚类算法的稳定性。  相似文献   

8.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

9.
如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。  相似文献   

10.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

11.
粗糙集理论研究的核心内容之一是属性重要性的度量和属性约简。经典的粗糙集模型基于等价关系,适合于处理离散属性值。模糊粗糙集理论将模糊集和粗糙集理论结合起来,将等价关系扩展为模糊关系,可处理模糊属性值。分析了已有广泛运用的模糊决策表的属性约简算法FRAR存在的三个问题,提出了一种新的约简算法,较好地克服了原算法的问题,能处理规模较大的模糊决策表。  相似文献   

12.
Abstract: Machine learning can extract desired knowledge from training examples and ease the development bottleneck in building expert systems. Most learning approaches derive rules from complete and incomplete data sets. If attribute values are known as possibility distributions on the domain of the attributes, the system is called an incomplete fuzzy information system. Learning from incomplete fuzzy data sets is usually more difficult than learning from complete data sets and incomplete data sets. In this paper, we deal with the problem of producing a set of certain and possible rules from incomplete fuzzy data sets based on rough sets. The notions of lower and upper generalized fuzzy rough approximations are introduced. By using the fuzzy rough upper approximation operator, we transform each fuzzy subset of the domain of every attribute in an incomplete fuzzy information system into a fuzzy subset of the universe, from which fuzzy similarity neighbourhoods of objects in the system are derived. The fuzzy lower and upper approximations for any subset of the universe are then calculated and the knowledge hidden in the information system is unravelled and expressed in the form of decision rules.  相似文献   

13.
方案偏好已知的三角模糊数型多属性决策方法   总被引:2,自引:0,他引:2  
龚艳冰 《控制与决策》2012,27(2):281-285
研究决策者对方案偏好已知、属性值以三角模糊数形式给出且属性权重信息不能完全确知的多属性决策问题.提出了基于模糊比例值的决策方法和基于模糊偏差度的决策方法,这两种方法首先建立一个线性规划模型,通过求解该模型获得属性权重;然后,基于三角模糊数两两比较的可能度公式及三角模糊数排序公式,对决策方案进行排序和择优;最后,通过实例验证了方法的可行性和有效性.  相似文献   

14.
基于直觉模糊粗糙集的属性约简研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文针对传统的离散化技术所造成的信息丢失问题,提出了利用直觉模糊粗糙集合理论来进行属性约简的方法。文中描述了直觉模糊等价关系下粗糙集的模型,并在此基础之上定义了正域、依赖度与非依赖度概念,然后详细分析了直觉模糊粗糙集属性约简算法。最后,用实例证明了该算法的可行性,并对算法的优缺点进行了阐述。  相似文献   

15.
基于直觉模糊集和证据理论的群决策方法   总被引:1,自引:0,他引:1  
针对属性值和权重均为直觉模糊数的多属性决策问题,提出一种基于直觉模糊集和证据理论的群决策方法.首先,对专家给出的每个方案的属性值和属性权重进行证据合成,在此基础上合成每个方案的所有属性值;然后,基于直觉模糊集相似度确定专家的相对权重,修正方案证据,并合成所有专家证据,得到方案的信任区间,根据信任区间的大小对方案进行排序;最后,通过数值案例验证了所提出方法的有效性和合理性.  相似文献   

16.
基于模糊粗糙依赖度的连续值属性约简   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的离散化技术所造成的信息丢失问题,提出了利用模糊粗糙集理论来进行属性约简的方法。描述了模糊等价关系下的粗糙集模型,定义了正域、依赖度等概念,提出了基于模糊粗糙依赖度的属性约简算法,该方法比传统属性约简方法具有更好的时间复杂性,并用实例证明了该算法的可行性。  相似文献   

17.
基于HCM聚类的连续域模糊关联算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对粗糙集对于连续域属性决策表的处理能力差以及不容易获得模糊集之间关系等问题,提出一种基于连续型属性模糊关联规则约简算法。该算法引入三角隶属度函数将连续属性值转化为模糊值,并使用硬C均值聚类方法获得数据集之间关系,采用遗传算法优化该模型。仿真结果验证了该模型的有效性。  相似文献   

18.
In the real world, there exist a lot of fuzzy data which cannot or need not be precisely defined. We distinguish two types of fuzziness: one in an attribute value itself and the other in an association of them. For such fuzzy data, we propose a possibility-distribution-fuzzy-relational model, in which fuzzy data are represented by fuzzy relations whose grades of membership and attribute values are possibility distributions. In this model, the former fuzziness is represented by a possibility distribution and the latter by a grade of membership. Relational algebra for the ordinary relational database as defined by Codd includes the traditional set operations and the special relational operations. These operations are classified into the primitive operations, namely, union, difference, extended Cartesian product, selection and projection, and the additional operations, namely, intersection, join, and division. We define the relational algebra for the possibility-distribution-fuzzy-relational model of fuzzy databases.  相似文献   

19.
A fuzzy set based preprocessing method is described that may be used in the classification of patterns. This method, dispersion-adjusted fuzzy quartile encoding, determines the respective degrees to which a feature (attribute) belongs to a collection of fuzzy sets that overlap at the respective quartile boundaries of the feature. The fuzzy sets are adjusted to take into account the overall dispersion of values for a feature. The membership values are subsequently used in place of the original feature value. This transformation has a normalizing effect on the feature space and is robust to feature outliers. This preprocessing method, empirically evaluated using five biomedical datasets, is shown to improve the discriminatory power of the underlying classifiers.  相似文献   

20.
在高维数据隐私发布过程中,差分隐私预算大小直接影响噪音的添加.针对不能合理地为多个相对独立的低维属性集合合理分配隐私预算,进而影响合成发布数据集的安全性和可用性,提出一种个性化隐私预算分配算法(PPBA).引入最大支撑树和属性节点权重值降低差分隐私指数机制挑选属性关系对的候选空间,提高贝叶斯网络精确度,提出使用贝叶斯网络中节点动态权重值衡量低维属性集合的敏感性排序.根据发布数据集安全性和可用性的个性化需求,个性化设置差分隐私预算分配比值常数q值,实现对按敏感性排序的低维属性集合个性化分配拉普拉斯噪音.理论分析和实验结果表明, PPBA算法相比较于同类算法能够满足高维数据发布安全性和可用性的个性化需求,同时具有更低的时间复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号