共查询到20条相似文献,搜索用时 0 毫秒
1.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。 相似文献
2.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。 相似文献
3.
4.
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法。该方法首先采用ICMD(insensitive clustering for mixed data)聚类算法对数据集进行聚类匿名,然后在此基础上进行-差分隐私保护。ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求。通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息披露的风险。最后实验结果表明了该方法的有效性。 相似文献
5.
隐私保护技术解决了数据发布过程中的隐私泄露问题,然而当前的数据发布技术大多只面向查询用户发布同一隐私保护级别的数据,并未考虑查询用户等级不同的情况。在所提出的满足差分隐私的数据分级发布机制中,数据发布方利用隐私预算参数不同的拉普拉斯机制对数据查询结果进行隐私保护处理,实现了输出隐私保护程度不同的查询结果。在依据付费或权限对查询用户分级后,数据发布方为等级较高(低)的查询用户发布隐私保护程度较低(高)的查询结果,使得查询用户可使用错误率较低(高)的数据,达到了隐私数据分级发布的效果。实验结果与安全性分析表明该机制在抵抗背景知识攻击的同时还可有效地实现输出错误率不同的分级查询结果。 相似文献
6.
随着位置感知设备的普及,轨迹数据已广泛应用于现实生活。然而,轨迹数据通常与敏感标签相关联,不当地分享或发布这些数据可能会泄露用户的隐私,且不同数据的敏感程度互异。针对上述问题,文章提出了基于个性化时空聚类的差分隐私轨迹保护模型。首先,针对轨迹中海量时间数据与隐私保护的需要,文章提出模糊均值聚类算法(FCM算法);其次,在空间分割的过程中,通过密度进行聚类,并实现个性化调整隐私预算分配的目的,从而提高数据效用;再次,在轨迹合成阶段,对比真实轨迹数据,选择更具代表性的轨迹;最后,在发布阶段,引入Laplace机制对轨迹数目进行隐私保护。为了验证文章所提出的模型在轨迹效用与隐私保护上的成果,将该模型与另外两种模型在4个阶段上进行了比较。实验结果表明,文章所提出的模型在数据效用方面提升15.45%,在相同隐私预算下,隐私保护强度提升至少35.62%。 相似文献
7.
针对现有差分隐私k-means算法对初始中心点敏感、用户位置数据误差偏大、可用性较低等问题,根据LBS的特点,引入人流密度的概念,提出一种基于差分隐私k-means的混合位置隐私保护方法。根据LBS特点将用户位置点分成离散位置点和非离散位置点,基于差分隐私技术,采用改进聚类算法对位置信息进行泛化和加噪;通过分析用户位置点的稀疏程度来确定离散点,对离散点位置信息采用基于差分隐私的单独加噪技术;对非离散点采用基于差分隐私的改进k-means算法进行泛化处理,以实现用户位置信息的隐私保护。仿真实验表明,在相同隐私预算的前提下,该方法具有较高的数据可用性。 相似文献
8.
为使数据管理者可以发布数据集供研究人员进行挖掘分析,对数据集采用满足差分隐私的保护算法,但其中会加入大量噪声,破坏数据可用性,因此,提出一种基于聚类的差分隐私民航旅客数据发布算法.改进聚类算法,按照数据类型的不同,对数值型属性和分类型属性分别选用不同的距离计算方法,将更可能相关的记录分为一组,降低差分隐私敏感度,结合聚... 相似文献
9.
移动互联网和智能手机的普及大大方便了人们的生活,并由此产生了大量的轨迹数据.通过对发布的轨迹数据进行分析,能够有效提高基于位置服务的质量,进而推动智慧城市相关应用的发展,例如智能交通管理、基础设计规划以及道路拥塞预警与检测.然而,由于轨迹数据中包含用户的敏感信息,直接发布原始的轨迹数据会对个人隐私造成严重威胁.差分隐私作为一种具备严格形式化定义、强隐私性保证的安全机制,已经被广泛应用于轨迹数据的发布中.但是,现有的方法假定用户具有相同的隐私偏好,并且为所有用户提供相同级别的隐私保护,这会导致对某些用户提供的隐私保护级别不足,而某些用户则获得过多的隐私保护.为满足不同用户的隐私保护需求,提高数据可用性,本文假设用户具备不同的隐私需求,提出了一种面向轨迹数据的个性化差分隐私发布机制.该机制利用Hilbert曲线提取轨迹数据在各个时刻的分布特征,生成位置聚簇,使用抽样机制和指数机制选择各个位置聚簇的代表元,进而利用位置代表元对原始轨迹数据进行泛化,从而生成待发布轨迹数据.在真实轨迹数据集上的实验表明,与基于标准差分隐私的方法相比,本文提出的机制在隐私保护和数据可用性之间提供了更好的平衡. 相似文献
10.
面向数据发布和分析的差分隐私保护 总被引:2,自引:0,他引:2
随着数据分析和发布等应用需求的出现和发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战.基于k-匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性.差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护.文中对差分隐私保护领域已有的研究成果进行了总结,对该技术的基本原理和特征进行了阐述,重点介绍了当前该领域的研究热点:差分隐私下基于直方图的发布技术、基于划分的发布技术以及回归分析技术.在对已有技术深入对比分析的基础上,指出了差分隐私保护技术的未来发展方向. 相似文献
11.
多项式回归是用来确定两种或两种以上变量间相互依赖的非线性定量关系的一种统计分析方法,在大数据分析中有广泛的应用。通常,挖掘的数据集包含一些敏感属性,在数据挖掘过程和数据发布中,如不加保护会引起隐私泄露。基于对代价函数添加噪声的方法,该文设计了一种满足差分隐私的多项式回归算法FM-on-PR,并且针对现实应用中的需求,对该算法进行了优化,获得了两种分别对数据安全性和数据可用性进行加强的算法DPC-on-PR和DPBA-on-PR。通过理论证明了它们满足差分隐私性质,并使用多个数据集进行实验仿真,测试算法性能,结果表明了这些方法具有有效性,并且经过对比,得出了其中拟合优度最高的DPBA-on-PR算法。 相似文献
12.
针对高维数据发布中\"维度灾难\"所导致发布结果可用性较差的问题,提出一种改进成分分析的差分隐私高维数据发布方法ICAHDP.ICAHDP通过引入属性重要度来优化PCA,利用优化算法对数据进行降维,减少时间和空间的开销.该算法在数据发布的过程中引入基于互信息的评价机制,确定最优的主成分个数.考虑到高维数据中可能存在多个敏感属性,ICAHDP引入敏感属性偏好,结合最优匹配理论,设计敏感属性分级保护策略来满足个性化的差分隐私保护策略.实验表明,ICAHDP不仅保证了发布数据的隐私性,而且很大程度地提升了数据的准确性和实用性. 相似文献
13.
差分隐私是一种基于噪声扰动的隐私保护技术,针对差分隐私保护下噪声导致的聚类中心点偏移较大的问题,提出了一种基于BWP(between-within proportion)指标的差分隐私[k]-means算法。算法将聚类有效性评价指标BWP引入到隐私预算分配过程中,对传统隐私预算分配进行加权处理,在一次迭代中为不同密度分布的簇分配不同的隐私预算,从而添加不同的随机噪声。理论分析表明新算法满足[ε]-差分隐私保护。基于四个标准数据集对新算法进行了实验,实验结果表明,在聚类结果的可用性以及算法的稳定性上新算法具有优势。 相似文献
14.
函数型数据回归是一种特殊的回归分析,其响应或协变量包含函数型数据,即样本元素为连续函数的数据。函数型数据在医疗保健、社交媒体、传感网络等诸多领域都有重要应用,通常包含一些敏感信息,在回归分析的过程中,不加保护会引起隐私的泄露。针对函数型数据回归分析中缺少隐私保护的问题,提出了一种基于拉普拉斯机制的函数回归的差分隐私保护算法。首先,对响应数据进行降维,将响应函数建模为相互正交的B样条基的张量积,建立函数回归的数学模型;其次,对回归模型的未知参数取值使用惩罚最小二乘法估计,并通过正交基函数的数量控制粗糙度;最后,对估计参数加入服从拉普拉斯分布的噪声扰动,得到最终的回归结果。理论分析和实验表明,函数回归的差分隐私保护算法满足拉普拉斯机制的差分隐私保护,并且随着隐私预算的减小,算法效率越高,在保证数据安全性的同时达到了良好的可用性。 相似文献
15.
社交网络中积累的海量信息构成一类图大数据,为防范隐私泄露,一般在发布此类数据时需要做匿名化处理.针对现有匿名方案难以防范同时以结构和属性信息为背景知识的攻击的不足,研究一种基于节点连接结构和属性值的属性图聚类匿名化方法,利用属性图表示社交网络数据,综合根据节点间的结构和属性相似度,将图中所有节点聚类成一些包含节点个数不小于k的超点,特别针对各超点进行匿名化处理.该方法中,超点的子图隐匿和属性概化可以分别防范一切基于结构和属性背景知识的识别攻击.另外,聚类过程平衡了节点间的连接紧密性和属性值相近性,有利于减小结构和属性的总体信息损失值,较好地维持数据的可用性.实验结果表明了该方法在实现算法功能和减少信息损失方面的有效性. 相似文献
16.
随着大数据时代的到来,信息安全也日益成为了人们关注的话题和重点。与匿名隐私保护相比,差分隐私保护作为一种新的隐私保护技术,能抵抗假设攻击和背景知识攻击。差分隐私保护的直方图发布能够直观表示数据的发布信息,针对国内外在静态数据集和动态数据流方向上的数据直方图发布的差分隐私保护研究现状进行介绍,讨论有关静态数据集下直方图存在长区间添加噪声而导致的噪声累积、数据可用性低,以及动态数据流下隐私预算容易耗尽问题的解决方法,对基于直方图的差分隐私保护各相关算法进行对比与分析,最后总结出目前差分隐私保护技术的应用及未来的研究方向。 相似文献
17.
树索引空间数据进行差分隐私保护时需要产生噪声,针对现有差分隐私预算采取均匀分配方式,普通用户无法个性化选择的问题,提出等差数列分配法和等比数列分配法两种分配隐私预算策略。首先,利用树结构索引空间数据;然后,用户根据隐私保护度的需要和查询精确度的需要,个性化设置相邻两层分配的隐私预算的差值或比值,动态调整隐私预算;最后,隐私预算分配给树的每一层,实现了个性化按需分配方式。理论分析和实验结果表明,与均匀分配方式相比,这两种方法分配隐私预算更加灵活,且等比数列分配法优于等差数列分配法。 相似文献
18.
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略的直方图发布算法APB(adaptive privacy budget allocation),首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。 相似文献
19.
差分隐私是目前应用较为广泛的工具,由于它忽略攻击者的任意背景知识,提供了强大的理论隐私保障,能够在数据发布期间保护数据的隐私。直方图发布作为直观的数据发布方法之一,也有着隐私披漏的风险。针对该问题,本文提出了一种基于差分隐私保护的直方图发布方法,实验结果证明,将这种方法应用到统计上可大大提高隐私的安全性和数据发布的可靠性。 相似文献