首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 156 毫秒
1.
随着大数据时代的到来,如何在保护用户隐私的前提下完成多维类别数据上的频率分布估计问题成为研究热点.已有的工作主要是基于中心化差分隐私模型或本地化差分隐私模型完成安全算法的设计.鉴于上述两种模型在隐私保护程度或发布结果可用性方面的弊端,基于新兴的混洗差分隐私模型,设计用户数据收集策略,进而提供高安全、高可用的频率分布估计服务.考虑到多维类别属性的多维特征以及不同属性上取值域大小不等的异构特点,从扰动算法以及洗牌方式等角度出发,设计了基于单洗牌者以及多洗牌者的数据发布方案ARR-SS和SRR-MS.此外,结合上述两种方案的优势,通过填补技术消除属性间异构问题,提出了基于取值域填补的单洗牌者数据发布方案PSRR-SS.从理论上分析了3种策略的隐私保护程度以及误差级别,并利用4个真实数据集验证所提出方案在频率估计问题上的有效性.此外,将所提方案作为带噪数据库生成技术的加噪组件,评估随机梯度下降算法在生成带噪数据上的训练结果的可用性.实验结果展现了所提方案优于当前同类算法.  相似文献   

2.
基于本地差分隐私的用户数据收集与分析算法已延伸到了键值数据类型.然而,该类数据值域大小与稀疏性以及本地扰动机制直接制约着收集与分析精度.针对现有机制难以有效应对该类数据收集的不足,提出了一种基于直方图技术的有效收集与分析算法HISKV(histogram-based key-value data collection),该算法首先结合用户分组策略寻找最优截断长度,利用最优截断抽样技术处理值域过大与稀疏性问题,然后结合截断结果随机抽取单个键值对进行离散化处理.针对离散化结果,设计一种高效的本地扰动机制LRR_KV(local random response for key-value data),该机制结合具体的键分配不同的本地扰动概率.每个用户利用LRR_KV机制扰动离散化的键值对之后发送给收集者,收集者结合用户的报告值对每个键的频率及其值所对应的均值进行估计.理论分析了HISKV算法的无偏性、所产生的方差以及最大偏差,并与现有的键值收集算法在真实与合成的数据集上进行比较,实验结果表明HISKV算法优于同类算法.  相似文献   

3.
多维数据的发布与分析可以产生巨大的价值, 但在数据收集阶段时常发生隐私泄露的问题. 传统的中心化差分隐私保护方法要求一个完全可信的第三方数据收集者来收集数据, 但在现实中很难找到一个完全可信的第三方数据收集者. 随着属性维度的增加, 数据收集者的求精处理工作(联合分布的计算)也成了一个亟待解决的问题. 针对上述问题提出一种适用于多值数据的本地化差分隐私保护算法(RR-LDP), 引入一元编码和瞬时随机响应技术用来在数据收集阶段保护个人隐私, 降低了通信开销; 在满足LDP的情况下, 结合期望最大化(EM)算法和LASSO回归模型, 提出了高效的多维数据联合分布估计算法(LREMH). 该算法用LASSO回归模型估计初始值, 用EM算法进行迭代计算. 理论分析和实验结果表明LREMH算法在精度和效率之间取得了平衡.  相似文献   

4.
本地化差分隐私研究综述   总被引:2,自引:2,他引:0  
叶青青  孟小峰  朱敏杰  霍峥 《软件学报》2018,29(7):1981-2005
大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战.中心化差分隐私保护技术建立在可信第三方数据收集者的假设基础上,然而该假设在现实中不一定成立.基于此提出的本地化差分隐私作为一种新的隐私保护模型,具有强隐私保护性,不仅可以抵御具有任意背景知识的攻击者,而且能够防止来自不可信第三方的隐私攻击,对敏感信息提供了更全面的保护.介绍了本地化差分隐私的原理与特性,总结和归纳了该技术的当前研究工作,重点阐述了该技术的研究热点:本地化差分隐私下的频数统计、均值统计以及满足本地化差分隐私的扰动机制设计.在对已有技术深入对比分析的基础上,指出了本地化差分隐私保护技术的未来研究挑战.  相似文献   

5.
张啸剑  孟小峰 《软件学报》2016,27(2):381-393
基于差分隐私保护模型,已经存在多种静态数据集上的直方图发布方法,而目前着重考虑数据流环境下的直方图发布方法却很少.由于数据流本身潜在的复杂性,直接利用现有的满足差分隐私的直方图发布方法处理数据流存在着很多不足,例如发布直方图的可用性低、发布误差大等.基于此,提出了一种基于滑动窗分割的流式直方图发布方法SHP(streaming histogram publication).该方法通过连续分割每个滑动窗中的桶计数,使其构成不同的分组.根据不同的范围计数查询敏感性,提出了3种拉普拉斯噪音添加机制以实现差分隐私保护,分别是滑动窗机制、时间点机制以及自适应抽样机制.在自适应抽样机制中,SHP算法基于当前的滑动窗,依赖于一种自适应抽样方法对下一时刻的计数进行预测,若预测值与真实值的差异小于给定的阈值则发布预测值,否则发布噪音值.该抽样方法可以有效地节省整体的隐私预算.在真实数据集上对SHP算法的可用性进行度量,结果显示,基于抽样的SHP算法的可用性高于另外两种方式.  相似文献   

6.
差分隐私作为现在的一种隐私保护机制得到了广泛的应用.目前虽然存在着很多种静态数据集上的直方图发布方法,但是对于数据流环境下的基于滑动窗口直方图发布方法较少,并且面临着直方图的发布误差较高的问题.对于此问题,提出了一种适用于滑动窗口模型的数据流差分隐私直方图发布算法(histogram pub-lishing algorithm for sliding window model,HPA-SW).该算法首先基于数据分块的思想来把一个滑动窗口划分为k个子块,并通过该参数来控制和调节数据直方图的统计误差;随后,该算法通过比较相邻两个直方图数据分布的差异来优化当前窗口的隐私预算分配,从而快速计算出局部最优直方图.为了验证算法的有效性,首先通过严格的理论推导证实了所设计的算法符合差分隐私要求,并且其近似误差不超过W/2k.其次,通过在真实数据集合上的实验对比,显示了该算法的发布误差较低,比SSHP算法降低了50%.  相似文献   

7.
已有的基于差分隐私的直方图发布技术在利用直方图反映数据的真实分布特征时可能会出现“重拖尾”和“零桶”现象,并且在数据量较多处“过于平缓”;另外,已有技术对原始直方图进行差分隐私保护时未考虑每个分组所蕴含的信息量大小不同。针对以上问题,提出一种基于差分隐私的非等距直方图发布方法。首先,利用经验分布函数根据数据稀疏性合理构建非等距直方图;然后,在非等距直方图上应用差分隐私保护技术对原始非等距直方图进行隐私保护;最后,根据非等距直方图的组距大小为每组设置隐私预算以提高每组数据的隐私性。实验结果表明,所提方法在差分隐私下进行直方图发布时充分考虑了数据分布的稀疏性,有效避免了直方图的“重拖尾”和“零桶”现象,保证了所发布直方图反映数据分布特征的准确性;并且为每组添加符合拉普拉斯(Laplace)机制的噪声时,根据组距为每组设置合理的隐私预算,在一定程度上提高了不同数据段的隐私性。  相似文献   

8.
随着大数据时代的到来,信息安全也日益成为了人们关注的话题和重点。与匿名隐私保护相比,差分隐私保护作为一种新的隐私保护技术,能抵抗假设攻击和背景知识攻击。差分隐私保护的直方图发布能够直观表示数据的发布信息,针对国内外在静态数据集和动态数据流方向上的数据直方图发布的差分隐私保护研究现状进行介绍,讨论有关静态数据集下直方图存在长区间添加噪声而导致的噪声累积、数据可用性低,以及动态数据流下隐私预算容易耗尽问题的解决方法,对基于直方图的差分隐私保护各相关算法进行对比与分析,最后总结出目前差分隐私保护技术的应用及未来的研究方向。  相似文献   

9.
当前一种有效的差分隐私直方图发布是先将直方图映射成满m叉区间树,后利用查询一致性约束提高查询精度.然而,并非所有直方图都能映射成满m叉区间树.针对此问题,文中首先提出可实现任意直方图向树结构映射的k-区间树;然后从理论上分析对于任意区间树结构下的差分隐私直方图发布,仍可在一致性约束下利用最优线性无偏估计进一步降低区间计数查询的误差;最后提出面向任意区间树结构基于局部最优线性无偏估计的差分隐私直方图发布算法(LBLUE).实验对比分析同类算法和LBLUE所发布数据的区间计数查询精度及算法效率,表明LBLUE有效可行.  相似文献   

10.
如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。  相似文献   

11.
本地差分隐私(local differential privacy,LDP)可以对可穿戴装置(wearable devices)采集到的数据进行隐私保护,每个用户都会在本地扰乱自己的数据,并且将扰动后的数据发送给数据汇聚服务器,以保护用户免受私人信息泄漏的影响.可穿戴装置采集到的数据是多维的,但是现有的针对可穿戴装置多...  相似文献   

12.
近年来,基于机器学习的数据分析和数据发布技术成为热点研究方向。与传统数据分析技术相比,机器学习的优点是能够精准分析大数据的结构与模式。但是,基于机器学习的数据分析技术的隐私安全问题日益突出,机器学习模型泄漏用户训练集中的隐私信息的事件频频发生,比如成员推断攻击泄漏机器学习中训练的存在与否,成员属性攻击泄漏机器学习模型训练集的隐私属性信息。差分隐私作为传统数据隐私保护的常用技术,正在试图融入机器学习以保护用户隐私安全。然而,对隐私安全、机器学习以及机器学习攻击三种技术的交叉研究较为少见。本文做了以下几个方面的研究:第一,调研分析差分隐私技术的发展历程,包括常见类型的定义、性质以及实现机制等,并举例说明差分隐私的多个实现机制的应用场景。初次之外,还详细讨论了最新的Rényi差分隐私定义和Moment Accountant差分隐私的累加技术。其二,本文详细总结了机器学习领域常见隐私威胁模型定义、隐私安全攻击实例方式以及差分隐私技术对各种隐私安全攻击的抵抗效果。其三,以机器学习较为常见的鉴别模型和生成模型为例,阐述了差分隐私技术如何应用于保护机器学习模型的技术,包括差分隐私的随机梯度扰动(DP-SGD)技术和差分隐私的知识转移(PATE)技术。最后,本文讨论了面向机器学习的差分隐私机制的若干研究方向及问题。  相似文献   

13.
唐海霞 《计算机应用研究》2020,37(7):1952-1957,1963
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略的直方图发布算法APB(adaptive privacy budget allocation),首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。  相似文献   

14.
随着智能手机的发展,基于位置的服务越来越受欢迎,这种服务正在引起严重的隐私问题,因为许多用户不愿看到他们的位置信息泄露给服务提供商。近年来研究人员将广义的差分隐私概念引入了位置信息保护中,提供了一个具有严格数学证明的专用隐私保护框架。直观地说,差分隐私意味着通过扰动,使给定距离内的任何两个可能的发布位置的生成概率相似,因此攻击者无法了解用户的真实位置。然而,在保证隐私的前提下,用户总是希望所访问服务的质量损失是最小的。针对上述问题给出了一种后置映射的方法来实现。后置映射机制可以在满足相同的隐私级别同时改善其平均服务质量,并结合真实数据,对机制进行了仿真分析,结果显示机制的服务质量损失低于平面拉普拉斯机制。  相似文献   

15.
武跟强  贺也平  夏娴瑶 《软件学报》2017,28(9):2309-2322
在差分隐私保护程度确定的条件下使数据的有用性最大化的问题称为差分隐私的最优机制问题.最优机制问题是差分隐私理论中的一个重要问题,与差分隐私模型的理论基础及应用前景有直接联系.与已有的研究不同,本文提出一种新的不基于敏感度的分析方法,来寻找最优机制.首先,本文将最优机制问题构造为一个多目标函数优化问题并提出了一种新的差分隐私机制构造方法.在此基础上,本文对线性查询问题给出了一种近似最优差分隐私机制(定理2),该机制达到了差分隐私不等式的边界.此外,本文的大部分分析方法也可对非线性查询的最优机制问题进行分析.本文的研究揭示了敏感度方法的不足之处,发现其无法刻画数据集的邻居集合对应的查询函数值集合的特性,而该集合包含了差分隐私的一些深层特征.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号