首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 812 毫秒
1.
针对基于随机投影的差分隐私算法中存在直接对降维数据直接添加噪声导致基于欧氏距离数据挖掘中数据可用性较差的问题,提出了一种基于奇异值分解的差分隐私算法.该算法首先对高维社交网络的数据利用随机投影进行降维,然后对降维后的数据进行奇异值分解并对奇异值加入高斯噪声,最后通过奇异值分解逆运算生成待发布矩阵.该算法利用的奇异值矩阵...  相似文献   

2.
采用聚类算法预先处理个人隐私信息实现差分隐私保护,能够减少直接发布直方图数据带来的噪声累积现象,同时减小了直方图因合并方式不同带来的重构误差。针对DP-DBSCAN差分隐私算法存在对数据参数输入敏感问题,将基于密度聚类的OPTICS算法应用于差分隐私保护中,并提出改进的DP-OPTICS差分隐私保护算法,对稀疏型数据集进行压缩处理,对比采用同方差噪声和异方差噪声两种添加噪声方式,考虑攻击者能够攻破隐私信息的概率,确定隐私参数ε的上界,有效平衡了敏感信息的隐私性和数据的可用性之间的关系。将DP-OPTICS算法和基于OPTICS聚类的差分隐私保护算法、DP-DBSCAN算法进行对比,DP-OPTICS算法在时间消耗上介于其余二者之间,但是在取得相同参数的情况下,聚类的稳定性在三者中最好,因此改进后OP-OPTICS差分隐私保护算法总体上是可行的。  相似文献   

3.
《计算机工程》2017,(4):160-165
为在同等隐私保护强度下提高发布数据的分类准确率,在Diff Gen算法基础上提出一种改进的差分隐私数据发布算法Gini Diff。该算法将原始数据集完全泛化,在每轮迭代中通过指数机制选择特化方案,并以构建决策树的方式将特化后的记录划归到新的等价类,使用拉普拉斯机制为等价类计数添加噪声并生成发布数据集。运用基尼系数增益衡量不同特化方案的可用性,合理分配隐私预算并动态计算其消耗,发布数据集的可用性得到有效提高。实验结果表明,该算法发布的数据在分类准确率方面优于Diff Gen,接近理想水平。  相似文献   

4.
差分隐私模型具有强大的隐私保护能力,但是也存在数据效用低等问题。为提高数据可用性并保护数据隐私,提出一种基于SOM网络的差分隐私算法(SOMDP)。首先利用SOM网络模型对数据进行聚类操作;其次,对每个划分好的聚类添加满足差分隐私的拉普拉斯噪声;最后,理论分析算法的可行性,并在真实数据集上评估SOMDP算法性能、算法的数据可用性和隐私性能。实验结果表明,SOMDP在达到差分隐私要求的前提下,可较大程度地提高差分隐私数据发布的效用。  相似文献   

5.
唐海霞 《计算机应用研究》2020,37(7):1952-1957,1963
差分隐私直方图发布中,隐私预算涉及到噪声添加的强度,直接影响到直方图发布的数据可用性,如何合理地进行隐私预算的分配是直方图发布算法面临的一大挑战。提出了一种自适应的隐私预算分配策略的直方图发布算法APB(adaptive privacy budget allocation),首先通过分析分组前后引入的噪声误差和重构误差,建立了隐私预算分配权重的优化模型,得到最优分配权重和分组大小以及分组个数之间关系;然后基于优化模型和贪心分组的思想,提出了自适应的隐私预算分配策略,可以更好地均衡噪声误差和重构误差,提高发布数据的可用性。实验结果表明,基于自适应的隐私预算分配策略的直方图发布算法可用性高于同类算法。  相似文献   

6.
基于差分隐私的数据扰动技术是当前隐私保护技术的研究热点,为了实现对敏感数据差分隐私保护的同时,尽量提高数据的可用性,对隐私参数的合理设置、对添加噪声后数据进行优化是差分隐私保护中的关键技术。提出了隐私参数设置算法RBPPA以及加噪数据的优化算法DPSRUKF。RBPPA将隐私参数设置构建于数据访问者和贡献者的信誉度之上,并与数据隐私度以及访问权限值关联,构造了细粒度的隐私参数设置方案; DPSRUKF采用了平方根无味卡尔曼滤波处理加噪数据,提高了差分隐私数据的可用性。实验分析表明,该算法实现了隐私参数的细粒化设置以及加噪数据优化后数据精度的提高,既为敏感数据的应用提供了数据安全保障,又为数据访问者提供了数据的高可用性。  相似文献   

7.
针对高维数据发布中“维度灾难”所导致发布结果可用性较差的问题,提出一种改进成分分析的差分隐私高维数据发布方法ICAHDP。ICAHDP通过引入属性重要度来优化PCA,利用优化算法对数据进行降维,减少时间和空间的开销。该算法在数据发布的过程中引入基于互信息的评价机制,确定最优的主成分个数。考虑到高维数据中可能存在多个敏感属性,ICAHDP引入敏感属性偏好,结合最优匹配理论,设计敏感属性分级保护策略来满足个性化的差分隐私保护策略。实验表明,ICAHDP不仅保证了发布数据的隐私性,而且很大程度地提升了数据的准确性和实用性。  相似文献   

8.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

9.
随着大数据时代的到来,信息安全也日益成为了人们关注的话题和重点。与匿名隐私保护相比,差分隐私保护作为一种新的隐私保护技术,能抵抗假设攻击和背景知识攻击。差分隐私保护的直方图发布能够直观表示数据的发布信息,针对国内外在静态数据集和动态数据流方向上的数据直方图发布的差分隐私保护研究现状进行介绍,讨论有关静态数据集下直方图存在长区间添加噪声而导致的噪声累积、数据可用性低,以及动态数据流下隐私预算容易耗尽问题的解决方法,对基于直方图的差分隐私保护各相关算法进行对比与分析,最后总结出目前差分隐私保护技术的应用及未来的研究方向。  相似文献   

10.
张润莲 《计算机应用研究》2020,37(7):2123-2125,2147
针对直方图发布算法面临的隐私保护和数据可用性问题,提出一种基于抽样排序和层次划分的直方图发布算法。算法将指数机制和轮盘赌抽样技术相结合,对原始直方图进行抽样排序,使相似数据以较大概率排在一起;利用层次划分算法对排序后的直方图进行划分,以降低所划分分组中不同数据间的误差;最后对分组后的直方图添加拉普拉斯噪声,并恢复原始顺序,得到待发布直方图。仿真测试结果表明,该算法在满足差分隐私的前提下有效提高了发布数据的可用性。  相似文献   

11.
针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search,CS-PCA)。该算法,一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了约0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。  相似文献   

12.
针对权重社交网络差分隐私保护算法中噪声添加量过大以及隐私保护不均衡问题,提出了一种结合谱聚类算法与差分隐私保护模型的隐私保护算法SCDP.首先针对传统差分隐私保护算法直接向社交网络边权重添加噪声方式带来的噪声添加量过大的问题,结合谱聚类算法,将权重社交网络聚类成为不同的簇,对不同的簇采取随机添加噪声的方式,降低噪声的添...  相似文献   

13.
传统数据降维算法分为线性或流形学习降维算法,但在实际应用中很难确定需要哪一类算法.设计一种综合的数据降维算法,以保证它的线性降维效果下限为主成分分析方法且在流形学习降维方面能揭示流形的数据结构.通过对高维数据构造马尔可夫转移矩阵,使越相似的节点转移概率越大,从而发现高维数据降维到低维流形的映射关系.实验结果表明,在人造...  相似文献   

14.
Recently, many dimensionality reduction algorithms, including local methods and global methods, have been presented. The representative local linear methods are locally linear embedding (LLE) and linear preserving projections (LPP), which seek to find an embedding space that preserves local information to explore the intrinsic characteristics of high dimensional data. However, both of them still fail to nicely deal with the sparsely sampled or noise contaminated datasets, where the local neighborhood structure is critically distorted. On the contrary, principal component analysis (PCA), the most frequently used global method, preserves the total variance by maximizing the trace of feature variance matrix. But PCA cannot preserve local information due to pursuing maximal variance. In order to integrate the locality and globality together and avoid the drawback in LLE and PCA, in this paper, inspired by the dimensionality reduction methods of LLE and PCA, we propose a new dimensionality reduction method for face recognition, namely, unsupervised linear difference projection (ULDP). This approach can be regarded as the integration of a local approach (LLE) and a global approach (PCA), so that it has better performance and robustness in applications. Experimental results on the ORL, YALE and AR face databases show the effectiveness of the proposed method on face recognition.  相似文献   

15.
Algorithms on streaming data have attracted increasing attention in the past decade. Among them, dimensionality reduction algorithms are greatly interesting due to the desirability of real tasks. Principal Component Analysis (PCA) and Linear Discriminant Analysis (LDA) are two of the most widely used dimensionality reduction approaches. However, PCA is not optimal for general classification problems because it is unsupervised and ignores valuable label information for classification. On the other hand, the performance of LDA is degraded when encountering limited available low-dimensional spaces and singularity problem. Recently, Maximum Margin Criterion (MMC) was proposed to overcome the shortcomings of PCA and LDA. Nevertheless, the original MMC algorithm could not satisfy the streaming data model to handle large-scale high-dimensional data set. Thus an effective, efficient and scalable approach is needed. In this paper, we propose a supervised incremental dimensionality reduction algorithm and its extension to infer adaptive low-dimensional spaces by optimizing the maximum margin criterion. Experimental results on a synthetic dataset and real datasets demonstrate the superior performance of our proposed algorithm on streaming data.  相似文献   

16.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

17.
差分隐私保护是一种基于数据失真的隐私保护方法,通过添加随机噪声使敏感数据失真的同时也保证数据的统计特性。针对DBScan聚类算法在聚类分析过程中会泄露隐私的问题,提出一种新的基于差分隐私保护的DP-DBScan聚类算法。在满足ε-差分隐私保护的前提下,DP-DBScan聚类算法在基于密度的DBScan聚类算法上引入并实现了差分隐私保护。算法能够有效地保护个人隐私,适用于不同规模和不同维度的数据集。实验结果表明,与DBScan聚类算法相比,DP-DBScan聚类算法在添加少量随机噪声的情况下能保持聚类的有效性并获得差分隐私保护。  相似文献   

18.
等距映射算法(ISOMAP)是一种典型的非线性流形降维算法,该算法可在尽量保持高维数据测地距离与低维数据空间距离对等关系的基础上实现降维.但ISOMAP容易受噪声的影响,导致数据降维后不能保持高维拓扑结构.针对这一问题,提出了一种基于最优密度方向的等距映射(ODD–ISOMAP)算法.该算法通过筛选数据的自然邻居确定每个数据沿流形方向的最优密度方向,之后基于与各近邻数据组成的向量相对最优密度方向投影的角度、方向和长度合理缩放局部邻域距离,引导数据沿流形方向计算测地距离,从而降低算法对噪声的敏感度.为验证算法有效性,选取了2类人工合成数据和5类实测数据作为测试数据集,分别使用ISOMAP,LLE,HLLE,LTSA,LEIGS,PCA和ODD–ISOMAP算法对数据集降维,并对降维数据进行K-mediods聚类分析.通过比对聚类正确率以及不同幅度噪声对此正确率的影响程度评价各算法降维效果优劣.结果表明,ODD–ISOMAP算法较其他6种常见算法降维效果提升显著,且对噪声干扰有更强的抵抗能力.  相似文献   

19.
等度量映射(ISOMAP)算法是一种被广泛应用的非线性无监督降维算法,通过保持各个观测样本间的测地距离进行等距嵌入,从而实现高维空间向低维空间的坐标转换。但在实际应用中,观测数据无可避免地会存在噪声,由于测地距离的计算对噪声比较敏感,并且也没有考虑数据集的密度分布,导致ISOMAP算法降维后低维坐标表示存在几何变形。针对这一缺点,根据局部密度的思想,提出一种基于密度缩放因子的ISOMAP(Density Scaling Factor Based ISOMAP,D-ISOMAP)算法。在传统的ISOMAP算法框架下,首先,针对每个观测样本计算一个局部密度缩放因子;然后,在测地距离的计算过程中,将直接相邻的两个样本之间的测地距离除以这两个样本密度缩放因子的乘积;最后,通过最短路径算法求得改进后的距离矩阵,并对其进行降维处理。改进的测地距离在密度较大的区域被缩小,而在密度较小的区域被放大,这样可以减小噪声对降维效果的影响,提升可视化和聚类效果。人工数据集和UCI数据集上的实验结果表明,在数据集的可视化和聚类效果方面, D-ISOMAP算法较经典的无监督降维算法具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号