首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
差分隐私保护k- means聚类方法研究   总被引:2,自引:1,他引:2  
研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足e-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。  相似文献   

2.
胡闯  杨庚  白云璐 《计算机科学》2019,46(2):120-126
大数据时代的数据挖掘技术在研究和应用等领域取得了较大发展,但大量敏感信息披露给用户带来了众多威胁和损失。因此,在聚类分析过程中如何保护数据隐私成为数据挖掘和数据隐私保护领域的热点问题。传统差分隐私保护k-means算法对其初始中心点的选择较为敏感,而且在聚簇个数k值的选择上存在一定的盲目性,降低了聚类结果的可用性。为了进一步提高差分隐私k-means聚类方法聚类结果的可用性,研究并提出一种新的基于差分隐私的DPk-means-up聚类算法,同时进行了理论分析和比较实验。理论分析表明,该算法满足ε-差分隐私,可适用于不同规模和不同维度的数据集。此外,实验结果表明,在相同隐私保护级别下,与其他差分隐私k-means聚类方法相比,所提算法有效提高了聚类的可用性。  相似文献   

3.
赵乐  张恩  秦磊勇  李功丽 《计算机应用》2022,(12):3801-3812
针对现有隐私保护k-means聚类方案迭代效率不高,中心化差分隐私保护k-means聚类方案中服务器会遭受攻击,以及本地化差分隐私保护k-means聚类方案中服务器会返回错误聚类结果的问题,提出了一种基于区块链的多方隐私保护k-means聚类方案(M-PPkCS/B)。利用本地化差分隐私技术的优势及区块链公开透明、不可篡改的特性,首先,设计一种多方k-means聚类中心初始化算法(M-kCCIA),在保护用户隐私的同时,提高聚类的迭代效率,并确保用户联合产生初始聚类中心的正确性;然后,设计一种基于区块链的隐私保护k-means聚类算法(Bc-PpkCA),并构建聚类中心更新算法的智能合约来在区块链上迭代更新聚类中心,从而保证各个用户都能得到正确的聚类结果。在数据集HTRU2和Abalone上进行实验的结果表明,在确保各个用户得到正确聚类结果的同时,两个数据集的准确率分别能达到97.53%和96.19%,M-kCCIA的平均迭代次数与随机化初始聚类中心算法RS的平均迭代次数相比,在两个数据集上分别减少了5.68次和2.75次。  相似文献   

4.
针对现有差分隐私k-means算法对初始中心点敏感、用户位置数据误差偏大、可用性较低等问题,根据LBS的特点,引入人流密度的概念,提出一种基于差分隐私k-means的混合位置隐私保护方法。根据LBS特点将用户位置点分成离散位置点和非离散位置点,基于差分隐私技术,采用改进聚类算法对位置信息进行泛化和加噪;通过分析用户位置点的稀疏程度来确定离散点,对离散点位置信息采用基于差分隐私的单独加噪技术;对非离散点采用基于差分隐私的改进k-means算法进行泛化处理,以实现用户位置信息的隐私保护。仿真实验表明,在相同隐私预算的前提下,该方法具有较高的数据可用性。  相似文献   

5.
针对传统差分隐私保护的谱聚类算法存在聚类效果不理想的不足,提出一种面向差分隐私保护的自适应谱聚类优化新算法。采用互邻高斯核函数得到稀疏相似度矩阵,分析高维数据集的数据特征与聚类簇数的关系解决降维幅度和聚类簇数的不确定性;引入中间信息向量和中间性的概念来克服初始簇中心选取的盲目性;根据多维高斯分布离群点检验后的结果采用插补法解决离群点问题。仿真实验结果表明,该算法能够有效克服传统方法的不足,且在同一数据集相同隐私保护参数下,可以在保证数据隐私安全性的同时改善聚类效率并显著提高聚类可用性。  相似文献   

6.
针对大数据环境下聚类分析的隐私保护问题,基于MapReduce计算框架,提出了一种并行化的支持差分隐私保护和离群点消除的K-means算法。算法并行地计算数据集中各点间的欧氏距离矩阵与最近邻超球半径以导出离群点的判定阈值,并在此基础上完成差分隐私保护下的初始聚类中心选取和并行聚类过程。理论分析证明整个算法满足ε-差分隐私保护,实验结果说明该算法在隐私保护的有效性,聚类结果的可用性以及执行效率等方面取得了很好的平衡,相比于同类算法有较优的表现。  相似文献   

7.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

8.
针对异常离群点对k-means ■算法的聚类精确度影响较大且在确定中心点过程中会泄露聚类数据隐私的问题,提出DPk-means ■算法。标记离群点,降低离群点对k-means ■算法聚类精确度的影响,将差分隐私应用于k-means ■聚类算法中保护聚类数据隐私。在选择聚类初始中心点和迭代求取均值中心点的过程中,应用拉普拉斯机制注入噪声,解决数据隐私泄露的问题。通过隐私预算动态变化对聚类结果准确性的影响及同类算法对比实验分析验证,DPk-means ■算法能够提供更高的隐私保护水平且保证聚类结果的准确性。  相似文献   

9.
张国鹏  陈学斌  王豪石  翟冉  马征 《计算机应用》2022,42(12):3813-3821
为了在聚类分析中保护数据隐私的同时确保数据的可用性,提出一种基于本地化差分隐私(LDP)技术的隐私保护聚类方案——LDPK-Prototypes。首先,用户对混合型数据集进行编码;其次,采用随机响应机制对敏感数据进行扰动,而第三方在收集到用户的扰动数据后以最大限度恢复原始数据集;然后,执行K-Prototypes聚类算法,在聚类过程中,使用相异性度量方法确定初始聚类中心,并利用熵权法重新定义新的距离计算公式。理论分析和实验结果表明,所提方案与基于中心化差分隐私(CDP)技术的ODPC算法相比,在Adult和Heart数据集上的平均准确率分别提高了2.95%和12.41%,有效提高了聚类的可用性。同时,LDPK-Prototypes扩大了数据之间的差异性,有效避免了局部最优,提高了聚类算法的稳定性。  相似文献   

10.
马银方  张琳 《计算机科学》2016,43(Z11):368-372
K-medoids算法对初始中心点敏感,不能有效地对动态数据进行聚类,且需要对相关的隐私数据进行保护。针对这些问题,提出了基于差分隐私保护的KDCK-medoids动态聚类算法。该算法在采用差分隐私保护技术的基础上将KD-树优化选取出的k个聚类中心和增量数据相结合建立新的KD-树,然后采用近邻搜索策略将增量数据分配到与其相应的聚类簇中,从而完成最终的动态聚类。通过实验分别对小数据集和多维的大数据集的聚类准确率及运行时间进行了分析,同时也对采用差分隐私保护技术的KDCK-medoids算法在不同数据集上的有效性进行了评估。实验结果表明,基于差分隐私保护的KDCK-medoids动态聚类算法能够在实现隐私保护的同时快速高效地处理增量数据的动态聚类问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号