首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题,提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先,基于K-means++设计属性聚类方法,引入最大信息系数量化属性间的关联关系,并对具有高度关联关系的数据属性进行聚类。其次,对聚类产生的各个数据子集进行如下操作:计算关系矩阵以缩减属性对的候选空间,并构建满足差分隐私的贝叶斯网络。最后,根据贝叶斯网络采样每个属性,并合成新的隐私数据集进行发布。与PrivBayes方法相比,PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明,所提方法在有效保证数据可用性的基础上,可以显著提高计算效率,为高维数据的隐私发布提供了新思路。  相似文献   

2.
在高维数据隐私发布过程中,差分隐私预算大小直接影响噪音的添加.针对不能合理地为多个相对独立的低维属性集合合理分配隐私预算,进而影响合成发布数据集的安全性和可用性,提出一种个性化隐私预算分配算法(PPBA).引入最大支撑树和属性节点权重值降低差分隐私指数机制挑选属性关系对的候选空间,提高贝叶斯网络精确度,提出使用贝叶斯网络中节点动态权重值衡量低维属性集合的敏感性排序.根据发布数据集安全性和可用性的个性化需求,个性化设置差分隐私预算分配比值常数q值,实现对按敏感性排序的低维属性集合个性化分配拉普拉斯噪音.理论分析和实验结果表明, PPBA算法相比较于同类算法能够满足高维数据发布安全性和可用性的个性化需求,同时具有更低的时间复杂度.  相似文献   

3.
针对异构数据发布的隐私保护以及数据挖掘泛化性问题,提出一种用于聚类分析的异构数据差分隐私发布方案。为了解决处理隐私信息后缺乏正确引导的问题,将原始数据分组为集群,并利用集群标签对数据的集群结构进行编码,还为异构数据定制了一个同时考虑关系属性和集值属性的距离度量集群。在保留集群结构的同时迭代地概括原始数据。进一步在原始数据中加入噪声从而满足ε-差分隐私的要求。在满足差分隐私原则的前提下,提出一种同时处理关系数据和集值数据的不确定性算法,不同类型的数据以类似的方式进行匿名化。通过实验验证了该方法能够有效解决异构数据发布问题。  相似文献   

4.
张书旋  康海燕  闫涵 《计算机应用》2019,39(5):1394-1399
随着社交软件的流行,越来越多的人加入社交网络产生了大量有价值的信息,其中也包含了许多敏感隐私信息。不同的用户有不同的隐私需求,因此需要不同级别的隐私保护。社交网络中用户隐私泄露等级受社交网络图结构和用户自身威胁等级等诸多因素的影响。针对社交网络数据的个性化隐私保护问题及用户隐私泄露等级评价问题,提出基于Skyline计算的个性化差分隐私保护策略(PDPS)用以发布社交网络关系数据。首先构建用户的属性向量;接着采用基于Skyline计算的方法评定用户的隐私泄露等级,并根据该等级对用户数据集进行分割;然后应用采样机制来实现个性化差分隐私,并对整合后的数据添加噪声;最后对处理后数据进行安全性和实用性的分析并发布数据。在真实数据集上与传统的个性化差分隐私方法(PDP)对比,验证了PDPS算法的隐私保护质量和数据的可用性都优于PDP算法。  相似文献   

5.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚...  相似文献   

6.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

7.
文章提出一种基于改进贝叶斯网络的高维数据本地差分隐私方法,首先通过数据源差分隐私保护算法对用户端数据集进行扰动,生成扰动数据集,保护本地原始数据集隐私;然后通过改进的贝叶斯网络将高维数据集降维为多个低维属性集合;最后合成新数据集,使用人工蜂群算法对贝叶斯网络结构进一步改进。实验结果表明,该方法在数据实用性方面具有优势,且得到的贝叶斯网络收敛性更好。  相似文献   

8.
差分隐私保护模型中,非交互式数据发布是一个研究的热点.提出了一个基于朴素贝叶斯的差分隐私合成数据集发布算法.该算法首先采用朴素贝叶斯的条件独立假设来计算原数据集的联合分布,然后采用指数机制生成发布的数据集.仿真实验表明,随着隐私预算的增加,使用合成数据集训练得到的分类器在测试数据集时分类正确率逐渐提高,并且趋于稳定.  相似文献   

9.
差分隐私因能提供强大的隐私保证,广泛应用于解决数据发布中的隐私保护问题。但是经差分隐私保护后的数据注入大量噪音,降低了数据可用性,且已有方法中,针对混合属性数据集发布的隐私保护研究成果较少和存在隐私预算分配不合理的问题。因此,提出一种基于个性化隐私预算分配的差分隐私混合属性数据发布方法(DP-IMKP)。利用互信息与属性之间关联关系,提出一种敏感属性分级策略,使用户各属性重要程度得以量化,为不同级别的属性匹配对应的隐私保护程度;结合最优匹配理论,构造隐私预算与敏感属性之间的二部图,为各级敏感属性分配合理的隐私预算;结合信息熵和密度优化思想,对经典k-prototype算法中初始中心的选择和相异度度量方法进行改进,并对原始数据集进行聚类,利用各敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,防止隐私数据信息泄露。通过实验验证,DP-IMKP方法与同类方法相比,在提高数据可用性和降低数据泄露风险方面有明显优势。  相似文献   

10.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

11.
差分隐私是数据发布、数据挖掘领域内隐私保护的重要工具,但其强度和效果仅能后验评估,且高度依赖于经验性选择的隐私预算。文中提出一种基于图论和互信息量的差分隐私量化模型和隐私泄露量计算方法。利用信息论通信模型重构了差分隐私保护框架,构造了差分隐私信息通信模型和隐私度量模型;基于图的距离正则和点传递提出隐私泄露互信息量化方法,证明并计算了差分隐私泄露量的信息量上界。分析和对比表明,该隐私泄露上界与原始数据集的属性数量、属性值数量以及隐私预算参数具有较好的函数关系,且计算限制条件较少。文中所提方法优于现有方法,能够为差分隐私算法的设计及评价、隐私泄露风险评估提供理论支撑。  相似文献   

12.
机器学习中的隐私保护问题是目前信息安全领域的研究热点之一。针对隐私保护下的分类问题,该文提出一种基于差分隐私保护的AdaBoost集成分类算法:CART-DPsAdaBoost (CART-Differential Privacy structure of AdaBoost)。算法在Boosting过程中结合Bagging的基本思想以增加采样本的多样性,在基于随机子空间算法的特征扰动中利用指数机制选择连续特征分裂点,利用Gini指数选择最佳离散特征,构造CART提升树作为集成学习的基分类器,并根据Laplace机制添加噪声。在整个算法过程中合理分配隐私预算以满足差分隐私保护需求。在实验中分析不同树深度下隐私水平对集成分类模型的影响并得出最优树深值和隐私预算域。相比同类算法,该方法无需对数据进行离散化预处理,用Adult、Census Income两个数据集实验结果表明,模型在兼顾隐私性和可用性的同时具有较好的分类准确率。此外,样本扰动和特征扰动两类随机性方案的引入能有效处理大规模、高维度数据分类问题。  相似文献   

13.
为了解决数据发布和分析过程中用户真实数据信息被披露的问题,降低攻击者通过差分攻击和概率推理攻击获取真实结果的概率,提出了一种基于置信度分析的差分隐私保护参数配置方法。在攻击者概率推理攻击模型下对攻击者置信度进行分析,使之不高于根据数据隐私属性所设置的隐私概率阈值。所提出的方法能够针对不同查询用户查询权限的差异配置更加合理的隐私保护参数,避免了隐私披露的风险。实验分析表明,所提出的方法根据查询权限、噪声分布特性以及数据隐私属性分析攻击者置信度与隐私保护参数的对应关系,并据此推导出隐私保护参数的配置公式,从而在不违背隐私保护概率阈值的情况下配置合适的ε参数。  相似文献   

14.
Datafly算法是数据发布环境下保护数据隐私的一种k-匿名方法,实现k-匿名时只对准标识符属性集中属性值种类最多的属性进行归纳。当准标识符属性集中只有一个属性的取值多样而其他属性取值具有同质性时,该算法可行。实际应用中数据的取值却往往不具有这种特点。针对这个问题,提出一种自底向上的支持多属性归纳k-匿名算法,并对该算法进行实验测试,结果表明该算法能有效降低原始数据的信息损失并能提高匿名化处理效率。  相似文献   

15.
针对传统的聚类算法存在隐私泄露的风险,提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验,表明该算法能够在一定的信息损失度范围内实现有效的数据聚类,也可以对聚类数据进行保护。  相似文献   

16.
针对用电大数据环境下,非交互式差分隐私模型无法提供准确查询结果及计算开销较大的问题,提出一种基于最大信息系数与数据匿名化的差分隐私数据发布方法。从原始数据集中选出部分隐私属性作为特征集,利用最大信息系数选出与此特征集相关性高的数据作为隐私数据集,使用协同隐私保护算法对隐私数据集进行保护,发布满足差分隐私保护的用电大数据集。理论分析与实验结果表明,所提出的方法在提高大数据隐私保护处理效率同时,有效分化查询函数敏感性,提高发布数据可用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号