首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

2.
基于k最相似聚类的子空间聚类算法   总被引:3,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

3.
高维数据的稀疏性和"维灾"问题使得多数传统聚类算法失去作用,因此研究高维数据集的聚类算法己成为当前的一个热点.子空间聚类算法是实现高维数据集聚类的有效方法之一.介绍并实现了基于可变加权的高维数据子空间聚类算法SCAD和EWKM,并分别对人造数据、现实数据等数据集进行测试,根据测试结果进行分析,对比两种算法的性能及适用场合.  相似文献   

4.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

5.
乔永坚  刘晓琳  白亮 《计算机应用》2022,42(11):3322-3329
针对高维特征缺失数据在聚类过程中面临的因数据高维引发的维度灾难问题和数据特征缺失导致的样本间有效距离计算失效问题,提出一种面向高维特征缺失数据的K最近邻(KNN)插补子空间聚类算法KISC。首先,利用高维特征缺失数据的子空间下的近邻关系对原始空间下的特征缺失数据进行KNN插补;然后,利用多次迭代矩阵分解和KNN插补获得数据最终可靠的子空间结构,并在该子空间结构进行聚类分析。在6个图像数据集原始空间的聚类结果表明,相较于经过插补后直接进行聚类的对比算法,KISC算法聚类效果更好,说明子空间结构能够更加容易且有效地识别数据的潜在聚类结构;在6个高维数据集子空间下的聚类结果显示,KISC算法在各个数据集的聚类性能均优于对比算法,且在大多数据集上取得了最优的聚类精确度(ACC)和标准互信息(NMI)。KISC算法能够更加有效地处理高维特征缺失数据,提高算法的聚类性能。  相似文献   

6.
基于子空间维度加权的密度聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在高维数据聚类中,受维度效应的影响,现有的算法聚类效果不佳。为此,提出一种适用于高维数据的密度聚类算法StaDeCon。在经典的PreDeCon算法基础上,引入子空间维度权重的计算方法,避免PreDeCon算法使用全空间距离度量带来的问题,提高了聚类的质量。在合成数据和实际应用数据集上的实验结果表明,该算法在高维数据聚类上可取得较好的聚类精度,算法是有效可行的。  相似文献   

7.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。  相似文献   

8.
黄李国  王士同 《计算机工程》2007,33(18):233-235
高维数据的聚类都隐含在低维的子空间内。为找出有效的子空间,Agrawal等人提出了投影聚类概念,通过映射变换转换到子空间里,然后借助其他方法找到聚类。该文基于目前最新的投影聚类算法EPCH,提出了PCMF算法,借助Mean-Shift划分子空间聚类。与EPCH算法相比,PCMF在划分子空间中数据时,无须输入参数(EPCH中是最大聚类个数),能够有效降低划分出的子空间数量,获得与EPCH相媲美的实验结果。  相似文献   

9.
子空间聚类改进算法研究综述   总被引:1,自引:0,他引:1  
李霞  徐树维 《计算机仿真》2010,27(5):174-177
高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径。CLIQUE算法是最早提出的基于密度和网格的子空间聚类算法,自动子空间聚类算法的实用性和高效性,带来了子空间聚类算法的空前发展。深入分析CLIQUE算法的优点和局限性;介绍了一些近几年提出的子空间聚类算法,并针对CLIQUE算法的局限性作了改进,聚类的效率和精确性得到了提高;最后对子空间聚类算法的发展趋势进行了讨论。  相似文献   

10.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

11.
可能性C均值聚类算法(PCM)对于噪声显示了良好的鲁棒性,但是它没有考虑到像素的空间信息,在含有大量噪声的情况下,PCM算法的分割性能会大大降低。基于PCM算法,提出了一种改进的PCM算法,该算法改进了隶属度函数,新的像素点隶属度更新为其邻域隶属度的几何均值。实验结果显示新的算法能够更有效的分割图像,并显示出良好的抗噪能力。  相似文献   

12.
可能性C均值聚类算法(Possibilistic C-Means,PCM)相比于模糊C均值聚类算法(Fuzzy C-Means,FCM),能更好地处理含有噪音和例外点的数据,但在处理数据粘性较强的数据集时,PCM算法的聚类中心趋于一致,从而导致聚类算法直接失效。针对这个问题,提出了中心约束准则与跨域迁移学习准则,并将其应用到可能性C均值算法中,从而提出一种具有中心约束能力的聚类算法,简称中心约束的跨源学习聚类算法,改进后的算法能够利用跨域知识进行辅助聚类,确保类中心相互远离,从而能够保证算法的聚类性能。通过模拟数据集和真实数据集的实验,验证了该算法的上述优点。  相似文献   

13.
一种协同的可能性模糊聚类算法   总被引:1,自引:0,他引:1  
模糊C-均值聚类(FCM)对噪声数据敏感和可能性C-均值聚类(PCM)对初始中心非常敏感易导致一致性聚类。协同聚类算法利用不同特征子集之间的协同关系并与其他算法相结合,可提高原有的聚类性能。对此,在可能性C-均值聚类算法(PCM)基础上将其与协同聚类算法相结合,提出一种协同的可能性C-均值模糊聚类算法(C-FCM)。该算法在改进的PCM的基础上,提高了对数据集的聚类效果。在对数据集Wine和Iris进行测试的结果表明,该方法优于PCM算法,说明该算法的有效性。  相似文献   

14.
与模糊c均值(FCM)算法相比较,可能性C均值(PCM)聚类算法具有更好的抗干扰能力。但PCM聚类算法对初始化条件很敏感,在聚类的过程中很容易导致聚类结果一致性,并且没有考虑到像素的空间信息,用在图像分割尤其是多目标图像分割上效果极不稳定。在PCM算法的基础上,利用Markov随机场中的邻域关系属性,引入先验空间约束信息,建立包含灰度信息与空间信息的新聚类目标函数,提出马尔可夫随机场与PCM聚类算法相融合的图像分割新算法(MP.CM算法)。实验结果表明,在多目标图像分割上利用MPCM算法可以取得比PCM更好的分割效果。  相似文献   

15.
高维数据流子空间聚类发现及维护算法   总被引:5,自引:2,他引:3  
近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.  相似文献   

16.
Robust projected clustering   总被引:4,自引:2,他引:2  
Projected clustering partitions a data set into several disjoint clusters, plus outliers, so that each cluster exists in a subspace. Subspace clustering enumerates clusters of objects in all subspaces of a data set, and it tends to produce many overlapping clusters. Such algorithms have been extensively studied for numerical data, but only a few have been proposed for categorical data. Typical drawbacks of existing projected and subspace clustering algorithms for numerical or categorical data are that they rely on parameters whose appropriate values are difficult to set appropriately or that they are unable to identify projected clusters with few relevant attributes. We present P3C, a robust algorithm for projected clustering that can effectively discover projected clusters in the data while minimizing the number of required parameters. P3C does not need the number of projected clusters as input, and can discover, under very general conditions, the true number of projected clusters. P3C is effective in detecting very low-dimensional projected clusters embedded in high dimensional spaces. P3C positions itself between projected and subspace clustering in that it can compute both disjoint or overlapping clusters. P3C is the first projected clustering algorithm for both numerical and categorical data.  相似文献   

17.
基于单簇聚类的数据描述   总被引:3,自引:0,他引:3  
陈斌  冯爱民  陈松灿  李斌 《计算机学报》2007,30(8):1325-1332
文中提出了一种基于单簇可能性C-均值聚类(Possibilistjc C-Means,PCM)的数据描述方法并用于单分类.训练时,其首先进行P1M(PCM,C值取1)聚类,得到所有训练样本对目标类的隶属度;然后设置隶属度阈值,形成相应的数据描述进行单分类.分类时,计算新样本对目标类的隶属度,若其隶属度小于该阈值则判为异常,否则为正常.该方法和当前流行的支持向量域数据描述方法以及Parzen方法窗具有类似的参数配置和相当的分类性能,由此提供了另一种单分类学习算法.值得指出的是,尽管是PCM的一个特例,但P1M拥有PCM一般不具备的全局最优特性,而该特性对解决实际问题十分重要.  相似文献   

18.
A generalized form of Possibilistic Fuzzy C-Means (PFCM) algorithm (GPFCM) is presented for clustering noisy data. A function of distance is used instead of the distance itself to damp noise contributions. It is shown that when the data are highly noisy, GPFCM finds accurate cluster centers but FCM (Fuzzy C-Means), PCM (Possibilistic C-Means), and PFCM algorithms fail. FCM, PCM, and PFCM yield inaccurate cluster centers when clusters are not of the same size or covariance norm is used, whereas GPFCM performs well for both of the cases even when the data are noisy. It is shown that generalized forms of FCM and PCM (GFCM and GPCM) are also more accurate than FCM and PCM. A measure is defined to evaluate performance of the clustering algorithms. It shows that average error of GPFCM and its simplified forms are about 80% smaller than those of FCM, PCM, and PFCM. However, GPFCM demands higher computational costs due to nonlinear updating equations. Three cluster validity indices are introduced to determine number of clusters in clean and noisy datasets. One of them considers compactness of the clusters; the other considers separation of the clusters, and the third one considers both separation and compactness. Performance of these indices is confirmed to be satisfactory using various examples of noisy datasets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号