首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
基于子空间维度加权的密度聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在高维数据聚类中,受维度效应的影响,现有的算法聚类效果不佳。为此,提出一种适用于高维数据的密度聚类算法StaDeCon。在经典的PreDeCon算法基础上,引入子空间维度权重的计算方法,避免PreDeCon算法使用全空间距离度量带来的问题,提高了聚类的质量。在合成数据和实际应用数据集上的实验结果表明,该算法在高维数据聚类上可取得较好的聚类精度,算法是有效可行的。  相似文献   

2.
基于核的自适应K—Medoid聚类   总被引:1,自引:1,他引:1  
针对K-Medoid算法不能有效聚类大数据集和高维数据的弱点,将核学习方法引入到K-Medoid算法,提出了基于核的自适应K-Medoid算法.该算法利用核函数将输入空间样本映射到一个高维的特征空间,在这个核空间中进行K-Medoid聚类,在聚类过程中,数据可以自适应地加入到最适合它的簇当中,并且聚类结果与初始k个中心点的选取无关,该算法可以完成对大数据集和高维数据的聚类.实验结果表明,与K-Medoid算法相比,该算法具有较高的聚类准确率.  相似文献   

3.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

4.
子空间聚类算法是一种面向高维数据的聚类方法,具有独特的数据自表示方式和较高的聚类精度。传统子空间聚类算法聚焦于对输入数据构建最优相似图再进行分割,导致聚类效果高度依赖于相似图学习。自适应近邻聚类(CAN)算法改进了相似图学习过程,根据数据间的距离自适应地分配最优邻居以构建相似图和聚类结构。然而,现有CAN算法在进行高维数据非线性聚类时,难以很好地捕获局部数据结构,从而导致聚类准确性及算法泛化能力有限。提出一种融合自动权重学习与结构化信息的深度子空间聚类算法。通过自编码器将数据映射到非线性潜在空间并降维,自适应地赋予潜在特征不同的权重从而处理噪声特征,最小化自编码器的重构误差以保留数据的局部结构信息。通过CAN方法学习相似图,在潜在表示下迭代地增强各特征间的相关性,从而保留数据的全局结构信息。实验结果表明,在ORL、COIL-20、UMIST数据集上该算法的准确率分别达到0.780 1、0.874 3、0.742 1,聚类性能优于LRR、LRSC、SSC、KSSC等算法。  相似文献   

5.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。  相似文献   

6.
李四海  满自斌 《微机发展》2013,(6):98-101,105
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。  相似文献   

7.
可能性C-均值(PCM)聚类作为经典的基于原型的聚类方法,在处理高维数据集时性能骤降,无法检测出高维空间中嵌入的有效子空间。针对此不足,在PCM基础上引入子空间聚类机制,提出子空间可能性聚类算法SPC。该方法保留了PCM方法的优点,且对高维数据具有较好的适应性,能够有效检测各类所处的子空间。仿真实验验证了SPC算法的有效性。  相似文献   

8.
为了使近邻传播(AP)聚类在高维空间中获得更好的聚类效果,该文提出一种基于谱分析的近邻传播聚类方法(Affinity Propagation based on Spectrum analyze,AP-SA)。首先,通过采用谱分析技术将分布在高维非线性的数据点集映射到几乎线性的子空间上,映射过程实现高维数据降至低维。最后,通过AP聚类算法对映射在低维空间上的数据进行聚类,从而提高了AP算法在高维空间上的聚类性能。仿真实验结果表明,该方法相比于传统AP算法,在低维数据中无明显的优势,但随着实验的数据集的样本规模与维数的增加,在高维数据中的该方法降低了聚类时间的同时,也保证了较好的聚类效果。  相似文献   

9.
与在所有特征空间寻找聚类不同,子空间聚类的目标是找到嵌在不同子空间的簇,是实现高维数据聚类的有效途径.传统聚类算法主要采用基于距离测量的方法进行聚类,难以处理高维数据.提出一种能够处理高维数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm,ARSUB),将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强相关的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间.最后利用候选子空间进行聚类得到存在于不同子空间中的簇.在合成数据集与真实数据集的实验结果表明,这种方法具有较高的准确度和效率.  相似文献   

10.
仿射传播(Affinity propagation,AP)聚类算法是将所有待聚类对象作为潜在的聚类中心,通过对象之间传递的可靠性和有效性信息找到合适的聚类中心,从而计算出相应的聚类结果,但不适用子空间聚类。将粒度计算引入到仿射传播聚类算法中,提出属性与样本同步粒化的AP熵加权软子空间聚类算法(Entropy weighting AP algorithm for subspace clustering based on asynchronous granulation of attributes and samples,EWAP)。EWAP首先去除冗余属性,然后在每次聚类的迭代过程中修改属性的权重值。在满足一定条件迭代终止时,就会得到构成各兴趣度子空间的属性权重值,从而得到属性集的粒化结果以及相应的子空间聚类结果 。理论与实验证明EWAP算法既保留了AP算法的优点,又克服了该聚类算法不能进行子空间聚类的不足。  相似文献   

11.
Clustering high dimensional data has become a challenge in data mining due to the curse of dimensionality. To solve this problem, subspace clustering has been defined as an extension of traditional clustering that seeks to find clusters in subspaces spanned by different combinations of dimensions within a dataset. This paper presents a new subspace clustering algorithm that calculates the local feature weights automatically in an EM-based clustering process. In the algorithm, the features are locally weighted by using a new unsupervised weighting method, as a means to minimize a proposed clustering criterion that takes into account both the average intra-clusters compactness and the average inter-clusters separation for subspace clustering. For the purposes of capturing accurate subspace information, an additional outlier detection process is presented to identify the possible local outliers of subspace clusters, and is embedded between the E-step and M-step of the algorithm. The method has been evaluated in clustering real-world gene expression data and high dimensional artificial data with outliers, and the experimental results have shown its effectiveness.  相似文献   

12.
k-means型软子空间聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
软子空间聚类是聚类研究领域的一个重要分支和研究热点。高维空间聚类以数据分布稀疏和"维度效应"现象等问题而成为难点。在分析现有软子空间聚类算法不足的基础上,引入子空间差异的概念;在此基础上,结合簇内紧凑度的信息来设计新的目标优化函数;提出了一种新的k-means型软子空间聚类算法,该算法在聚类过程中无需设置额外的参数。理论分析与实验结果表明,相对于其他的软子空间算法,该算法具有更好的聚类精度。  相似文献   

13.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

14.
基于k最相似聚类的子空间聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

15.
针对传统距离度量在高维数据上效果不明显问题,提出一种共享最近邻子空间聚类算法(SNN_SC),按照维把数据集转变为多个最近邻事务数据库,挖掘事务数据库中最大共现对象集,即一维上聚类。在一维聚类集上进一步挖掘闭频繁项集,包含闭频繁项集的维是子空间,闭频繁项集是子空间上聚类。实验对比结果表明,SNN_SC能够更准确定位子空间,并在子空间上产生完整聚类。  相似文献   

16.
When dealing with high dimensional data, clustering faces the curse of dimensionality problem. In such data sets, clusters of objects exist in subspaces rather than in whole feature space. Subspace clustering algorithms have already been introduced to tackle this problem. However, noisy data points present in this type of data can have great impact on the clustering results. Therefore, to overcome these problems simultaneously, the fuzzy soft subspace clustering with noise detection (FSSC-ND) is proposed. The presented algorithm is based on the entropy weighting soft subspace clustering and noise clustering. The FSSC-ND algorithm uses a new objective function and update rules to achieve the mentioned goals and present more interpretable clustering results. Several experiments have been conducted on artificial and UCI benchmark datasets to assess the performance of the proposed algorithm. In addition, a number of cancer gene expression datasets are used to evaluate the performance of the proposed algorithm when dealing with high dimensional data. The results of these experiments demonstrate the superiority of the FSSC-ND algorithm in comparison with the state of the art clustering algorithms developed in earlier research.  相似文献   

17.
提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。  相似文献   

18.
In this paper, a new classification method (SDCC) for high dimensional text data with multiple classes is proposed. In this method, a subspace decision cluster classification (SDCC) model consists of a set of disjoint subspace decision clusters, each labeled with a dominant class to determine the class of new objects falling in the cluster. A cluster tree is first generated from a training data set by recursively calling a subspace clustering algorithm Entropy Weighting k-Means algorithm. Then, the SDCC model is extracted from the subspace decision cluster tree. Various tests including Anderson–Darling test are used to determine the stopping condition of the tree growing. A series of experiments on real text data sets have been conducted. Their results show that the new classification method (SDCC) outperforms the existing methods like decision tree and SVM. SDCC is particularly suitable for large, high dimensional sparse text data with many classes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号