首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

2.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚...  相似文献   

3.
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。  相似文献   

4.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。  相似文献   

5.
《计算机工程》2017,(4):160-165
为在同等隐私保护强度下提高发布数据的分类准确率,在Diff Gen算法基础上提出一种改进的差分隐私数据发布算法Gini Diff。该算法将原始数据集完全泛化,在每轮迭代中通过指数机制选择特化方案,并以构建决策树的方式将特化后的记录划归到新的等价类,使用拉普拉斯机制为等价类计数添加噪声并生成发布数据集。运用基尼系数增益衡量不同特化方案的可用性,合理分配隐私预算并动态计算其消耗,发布数据集的可用性得到有效提高。实验结果表明,该算法发布的数据在分类准确率方面优于Diff Gen,接近理想水平。  相似文献   

6.
随着医学技术的进步和大数据时代的到来,在数据发布时如何对患者就诊记录中的敏感信息进行隐私保护成为当前的研究热点。针对医疗大数据在发布过程中隐私保护问题,提出了基于属性效用值排序法AUR-Tree(attribute utility value ranking-tree)差分隐私数据发布算法。该算法用属性效用值排序法衡量准标识属性对敏感属性的影响程度,以此作为迭代分割的度量依据,采用基于泛化的自顶向下迭代分割分类树技术,通过类等差法合理的分配隐私预算从而实现在医疗数据发布过程中的隐私保护。实验结果表明:该算法在极大地提高了数据的安全性、有效性和可用性的前提下,还保留了后续数据挖掘的价值。  相似文献   

7.
隐私保护微数据发布技术可以在保护敏感数据隐私的同时,维持数据的可用性.但已有的多数发布方法都局限于类别属性数据集,发布后数据可用性以维持数据聚集查询可用性和频繁项集分析、分类挖掘可用性为主.针对数据挖掘领域另一重要任务--聚类分析,以及聚类分析中常处理的数值属性数据隐藏发布问题,提出隐藏算法NeSDO,算法对数据记录关于聚类可用性的特征进行分析,引入个性数据记录和共性数据记录的定义.采用合成数据替换扰动方法,为个性数据记录定义相应的正邻域记录集和负邻域记录集.对共性数据记录用其k最近邻域数据记录的均值替换;对个性数据记录分别采用其正邻域记录集或负邻域记录集内记录的均值进行置换,实现隐藏处理.理论分析和实验结果表明,算法NeSDO能够较好地保护敏感数值不泄露,同时能够有效保持发布后数据的聚类可用性.  相似文献   

8.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

9.
差分隐私模型具有强大的隐私保护能力,但是也存在数据效用低等问题。为提高数据可用性并保护数据隐私,提出一种基于SOM网络的差分隐私算法(SOMDP)。首先利用SOM网络模型对数据进行聚类操作;其次,对每个划分好的聚类添加满足差分隐私的拉普拉斯噪声;最后,理论分析算法的可行性,并在真实数据集上评估SOMDP算法性能、算法的数据可用性和隐私性能。实验结果表明,SOMDP在达到差分隐私要求的前提下,可较大程度地提高差分隐私数据发布的效用。  相似文献   

10.
针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题,提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先,基于K-means++设计属性聚类方法,引入最大信息系数量化属性间的关联关系,并对具有高度关联关系的数据属性进行聚类。其次,对聚类产生的各个数据子集进行如下操作:计算关系矩阵以缩减属性对的候选空间,并构建满足差分隐私的贝叶斯网络。最后,根据贝叶斯网络采样每个属性,并合成新的隐私数据集进行发布。与PrivBayes方法相比,PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明,所提方法在有效保证数据可用性的基础上,可以显著提高计算效率,为高维数据的隐私发布提供了新思路。  相似文献   

11.
差分隐私是一种基于噪声扰动的隐私保护技术,针对差分隐私保护下噪声导致的聚类中心点偏移较大的问题,提出了一种基于BWP(between-within proportion)指标的差分隐私[k]-means算法。算法将聚类有效性评价指标BWP引入到隐私预算分配过程中,对传统隐私预算分配进行加权处理,在一次迭代中为不同密度分布的簇分配不同的隐私预算,从而添加不同的随机噪声。理论分析表明新算法满足[ε]-差分隐私保护。基于四个标准数据集对新算法进行了实验,实验结果表明,在聚类结果的可用性以及算法的稳定性上新算法具有优势。  相似文献   

12.
差分隐私算法作为当前研究较多的隐私保护机制之一,有着广泛应用.目前有多种基于差分隐私保护的k均值聚类算法,应用场景不一,各有缺陷.以往的算法通过均等划分数据集,构造等宽直方图进行聚类,这会导致没有数据分布的区域也被无差别插入噪声,影响聚类性能.针对这一点,提出了一种新的差分隐私聚类算法DPQTk-means,先通过构建...  相似文献   

13.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

14.
宋健  许国艳  夭荣朋 《计算机应用》2016,36(10):2753-2757
在保护数据隐私的匿名技术中,为解决匿名安全性不足的问题,即匿名过程中因计算等价类质心遭受同质性和背景知识攻击造成的隐私泄漏,提出了一种基于差分隐私的数据匿名化隐私保护方法,构建了基于差分隐私的数据匿名化隐私保护模型;在利用微聚集MDAV算法划分相似等价类并在匿名属性过程中引入SuLQ框架设计得到ε-MDAV算法,同时选用Laplace实现机制合理控制隐私保护预算。通过对比不同隐私保护预算下可用性和安全性的变化,验证了该方法可以在保证数据高可用性的前提下有效地提升数据的安全性能。  相似文献   

15.
针对权重社交网络差分隐私保护算法中噪声添加量过大以及隐私保护不均衡问题,提出了一种结合谱聚类算法与差分隐私保护模型的隐私保护算法SCDP.首先针对传统差分隐私保护算法直接向社交网络边权重添加噪声方式带来的噪声添加量过大的问题,结合谱聚类算法,将权重社交网络聚类成为不同的簇,对不同的簇采取随机添加噪声的方式,降低噪声的添...  相似文献   

16.
针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search,CS-PCA)。该算法,一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了约0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。  相似文献   

17.
针对经典聚类方法无法应对任意背景知识下恶意攻击者在海量数据挖掘过程中的恶意攻击问题,结合差分隐私保护机制,提出一种适用于Spark内存计算框架下满足差分隐私保护的聚类算法,并从理论上证明了改进算法满足在Spark并行计算框架下的ε-差分隐私。实验结果表明,改进算法在保证聚类结果可用性前提下,具有良好的隐私保护性和满意的运行效率,在海量数据聚类分析的隐私保护挖掘中,具有很好的应用前景和价值。  相似文献   

18.
针对异常离群点对k-means ■算法的聚类精确度影响较大且在确定中心点过程中会泄露聚类数据隐私的问题,提出DPk-means ■算法。标记离群点,降低离群点对k-means ■算法聚类精确度的影响,将差分隐私应用于k-means ■聚类算法中保护聚类数据隐私。在选择聚类初始中心点和迭代求取均值中心点的过程中,应用拉普拉斯机制注入噪声,解决数据隐私泄露的问题。通过隐私预算动态变化对聚类结果准确性的影响及同类算法对比实验分析验证,DPk-means ■算法能够提供更高的隐私保护水平且保证聚类结果的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号