共查询到20条相似文献,搜索用时 15 毫秒
1.
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。 相似文献
2.
3.
K-匿名是近年来隐私保护研究的热点,介绍了K-匿名、K-最小匿名化的基本概念,阐述了泛化与隐匿技术,总结了K-匿名的评估标准,并分析了现有的K-匿名算法。最后对该领域的发展方向作了展望。 相似文献
4.
基于核的K-均值聚类 总被引:17,自引:0,他引:17
将核学习方法的思想应用于K-均值聚类中,提出了一种核K-均值聚类算法,算法的主要思想是:首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,突出各类样本之间的特征差异,然后在这个核空间中进行K-均值聚类。同时还将一种新的核函数应用于核K-均值聚类中以提高算法的速度。为了验证算法的有效性,分别利用人工和实际数据进行K-均值聚类和核K-均值聚类,实验结果显示对于一些特殊的类分布数据,核K-均值聚类比K-均值聚类具有更好的聚类效果。 相似文献
5.
在已有聚类算法的基础上,提出了一种新的文本聚类新方法--合作二分K-均值算法(简称CBKM).该算法以K-均值算法和二分K-均值算法为基础,通过整体聚类、合作聚类和聚类融合3个阶段,对中间聚类结果进行再次划分,产生了具有更好聚类效果的集合.实验结果表明,合作二分K-均值算法的聚类性能优于K-均值算法和二分K-均值算法. 相似文献
6.
K-均值聚类具有简单、快速的特点,因此被广泛应用于图像分割领域。但K-均值
聚类容易陷入局部最优,影响图像分割效果。针对K-均值的缺点,提出一种基于随机权重粒子
群优化(RWPSO)和K-均值聚类的图像分割算法RWPSOK。在算法运行初期,利用随机权重粒
子群优化的全局搜索能力,避免算法陷入局部最优;在算法运行后期,利用K-均值聚类的局部
搜索能力,实现算法快速收敛。实验表明:RWPSOK 算法能有效地克服K-均值聚类易陷入局
部最优的缺点,图像分割效果得到了明显改善;与传统粒子群与K-均值聚类混合算法(PSOK)
相比,RWPSOK 算法具有更好的分割效果和更高的分割效率。 相似文献
7.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。 相似文献
8.
9.
10.
对传统的K-平均算法作了简单的介绍和讨论,提出了一种具有单纯型法思想的K-中心点轮换法。分别对比了K-均值算法与K-中心点轮换算法的时间复杂度,针对K-中心点轮换算法的时间复杂度提出了一种基于抽样原理的改进算法,并对K-中心点轮换算法聚类数目的选择进行了各种改进方法的探索。同时,基于主流的weka开源数据挖掘工具实现了改进算法。实验结果表明了算法的有效性。 相似文献
11.
在基于位置服务中,K-匿名激励机制可以激励移动用户帮助其他用户实现K-匿名位置的隐私保护。然而,目前的K-匿名激励机制方案存在过度中心化、易单点失效、用户参与积极性不足等问题。当前,基于区块链的智能合约技术具有去中心化、安全性高、可验证等特性,可用来有效构建可编程金融,为解决K-匿名激励机制存在的问题提供了新思路。该方案结合区块链智能合约技术与改进的K-匿名激励算法,基于以太坊实验环境开发了K-匿名激励机制系统,将公有区块链中通用代币作为激励发放给参与用户,提出了一种可以提高参与用户积极性的保证金准入机制。相较于相关工作,改进后的激励算法在K-匿名组合生成方面节省了30%~40%的时间开销,该算法由智能合约实现,合约在区块链上自动执行,从而保证激励机制的安全性及可信性。 相似文献
12.
13.
14.
15.
保护隐私的(L,K) 匿名* 总被引:1,自引:1,他引:0
提出了一种在K-匿名之上的科学与工程系(L,K)-匿名方法,用于对K-匿名后的数据进行保护,并给出了(L,K)-匿名算法.实验显示该方法能有效地消除K-匿名后秘密匿名属性信息的泄漏,增强了数据发布的安全性. 相似文献
16.
基于样本空间分布密度的初始聚类中心优化K-均值算法* 总被引:2,自引:1,他引:1
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 相似文献
17.
在K-匿名模型的基础上提出了(s,d)-个性化K-匿名隐私保护模型,该模型能很好地解决属性泄漏问题,并通过实验证明了该模型的可行性。 相似文献
18.
针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(K-means Clustering Algorithm Based on Random Sampling , Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,在工作集上进行传统K-均值聚类,得到聚类中心和半径,并得到抽样结果;然后通过衡量剩下的聚类样本与已得到的抽样结果之间的关系,对剩余的样本进行归类。该方法通过随机抽样大大地减小了参与K-均值聚类的问题规模,从而有效提高了聚类效率,可解决大规模数据的聚类问题。实验结果表明,Kmeans_RS方法在大规模数据集中在保持聚类效果的同时大幅度提高了聚类效率。 相似文献
19.
20.
建模是不确定性数据管理的基础,K-匿名隐私保护模型中不确定性数据有其特殊性:它是人为泛化后的不确定性数据,泛化后的每个实例还原成泛化前元组的概率是相等的。由于其特殊性,以往针对非人为造成不确定性的数据建模方法已经不能简单地用于描述K-匿名隐私保护模型中不确定性数据。为了描述K-匿名隐私保护模型中不确定性数据,本文提出几种针对它的新建模方法:Kattr模型使用attrib-ute-ors方法来描述K-匿名数据中准标识符属性值的不确定性;Ktuple模型把K-匿名表不确定属性值看成是一个关系值,对关系值使用tuple-ors方法来描述;Kupperlower模型把K-匿名表泛化值范围分开成两个字段:上限和下限;Ktree模型根据K-匿名表是对普通表通过泛化树泛化而形成这一特性逆向拆分成树形结构。由这几种模型及它们之间的组合构成了一个描述K-匿名隐私保护模型中不确定性数据的模型空间。并且,本文讨论了模型空间里各种模型的完备性和封闭性等性质。 相似文献