首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 102 毫秒
1.
李金泽  徐喜荣  潘子琦  李晓杰 《计算机科学》2017,44(Z6):424-427, 450
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。  相似文献   

2.
在分析核函数所隐式描述的样本间成对相似性的基础上,该文从统计的角度分别定义了能反映类内(类间)样本相似性的类内(类间)个体平均相似系数,设计了一个高效的评价核聚类算法聚类质量的有效性指标。该指标具有物理意义清晰、计算简洁以及对核参数具备一定鲁棒性的优点。在此基础上,提出了一个能自动确定最佳聚类数目和最佳划分的自适应核聚类(SAKC)算法。Benchmarks实验结果验证了所提出的聚类有效性指标及其SAKC算法的有效性和良好性能。  相似文献   

3.
谱聚类能识别非线性数据,且优于传统聚类.谱聚类中度量相似性的高斯核函数尺度参数σ和聚类个数k对聚类效果影响较大,但需要人工判断.用向量之间夹角余弦代替σ并且通过特征值的跳跃性确定聚类个数,对于非线性高维数据,提出一种自适应谱聚类算法,将数据通过显式构造映射到随机特征空间,在随机特征空间中实现聚类.实验结果表明,在UCI数据上该算法与传统算法相比效果更好.  相似文献   

4.
视频运动目标的检测与定位是视频监控系统的主要技术之一。针对现有视频监控系统目标定位过程在目标被浅度遮挡或存在噪声时定位不准确的问题,提出了一种新的视频运动目标定位方法。采用减法聚类、聚类有效性函数与加权模糊C-均值聚类方法相结合。首先利用减法聚类,获得初始聚类中心,再通过加权模糊C-均值聚类算法对视频运动进行目标定位,避免了算法陷入局部最优而获取了全局最优。然后引入聚类有效性函数,获得视频序列中目标的最佳个数。仿真结果表明,改进方法对存在噪声或野点的情况具有较好的鲁棒性,并可以在不需要人为给定待检测图像目标个数的情况下,对存在浅度遮挡区域的目标进行准确定位。  相似文献   

5.
模糊聚类方法可以更有效地对复杂数据集进行分析,由于模糊聚类算法的种类繁多且聚类结果会随着输入的聚类个数的不同而改变,使得模糊聚类算法产生的结果不准确,因此,要获得准确的聚类结果必须确定模糊聚类个数k.目前已有的研究主要是利用多种模糊聚类有效性指标来确定最优聚类个数k,但是诸如SSD,PBM等模糊聚类指标会随着划分的聚类个数k的增加而单调递减,导致聚类个数k不准确.为此,文中提出了一种结合多目标优化算法的模糊聚类有效性指标(A Validity Index of Fuzzy Clustering Combined with Multi-obj ective Optimization Algorithm,OSACF),将模糊聚类度量指标与多目标优化算法(Multi-Obj ective Optimization Algorithm,MOEA)相结合来解决聚类最优个数k的问题.与使用聚类有效性指标不同,OSACF通过建立聚类个数k与聚类度量指标之间的双目标模型并使用MOEA优化该双目标模型来确定最优聚类个数k,避免了聚类有效性指标趋于单调递减的影响.另一方面,OSACF使用形态形似距离替代传统的欧氏距离度量,避免了聚类形状对计算聚类k值的影响.实验结果表明,OSACF结合MOEA得到的最优模糊聚类个数k比已有的聚类有效性指标获得的结果更准确.  相似文献   

6.
为了解决初始聚类中心的选择、簇个数的确定以及孤立点的避免等问题,提出了一种改进的全局K'-means算法.改进的算法不仅能够利用辅助聚类函数来计算初始点,而且能够利用目标函数在没有预定义聚类个数的前提下,找到实际的聚类中心个数,同时避免r孤立点问题.将改进的算法应用到实际数据集的分类中,并与改进的全局K-means算法以及K'-means算法进行了比较,实验结果证明所提出的算法能获得更好的聚类结果.  相似文献   

7.
提出了一种基于灰关联测度的分裂式层次聚类算法来实现雷达辐射源信号的盲分类.目前广泛使用的许多聚类算法中都需要预先确定类的数目,该算法能很好的解决这个问题.通过提取雷达辐射源信号在频域内的小波系数作为聚类的样本空间,用灰关联测度来衡量数据样本之间的相似程度,采用自顶向下基于密度扩展的分裂式层次化聚类策略,生成不同层次的划分,然后根据提出的聚类有效性指标估计类的数目.仿真实验结果表明,该算法能够获得较好的分类结果.  相似文献   

8.
自适应仿射传播聚类   总被引:42,自引:4,他引:42  
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

9.
周海松  黄德才 《计算机科学》2016,43(12):209-212
谱聚类是一种新兴的聚类算法,数据点间的相似度定义对其聚类效果起着至关重要的作用。传统的谱聚类算法通常利用高斯核函数作为相似度函数,但是对于多密度的数据往往不能取得良好的效果。在定义新的相似度函数的基础上,提出了一种密度自适应的半监督聚类算法。该算法结合半监督聚类的成对约束理论,利用先验信息对样本点之间的相似度进行自适应调整,提高了聚类的精度。该算法在人工数据集和真实数据集上的仿真实验都取得了良好的效果。  相似文献   

10.
基于粗糙集和小生境遗传算法的层次聚类算法   总被引:1,自引:0,他引:1  
目前大部分聚类算法都面向数值属性,针对符号属性的则比较少.提出了一种新的聚类算法 RNGADHCA,该算法将基于共享机制的小生境遗传算法运用到分裂式层次聚类算法中,并用粗糙集的思想来定义遗传算法的适应度函数,实验表明,该算法在面向符号属性进行聚类时能取得较好的聚类效果.  相似文献   

11.
一种新的分裂层次聚类SVM 多值分类器   总被引:6,自引:0,他引:6  
张国云  章兢 《控制与决策》2005,20(8):931-934
提出一种分裂层次聚类SVM分类树分类方法.该方法通过融合模糊聚类技术和支持向量机算法,利用分裂的层次聚类策略,有选择地重新构造学习样本集和SVM子分类器,得到了一种树形多值分类器.研究结果表明,对于k类别模式识别问题,该方法只需构造k-1个SVM子分类器,克服了SVM子分类器过多以及存在不可区分区域的缺点,具有良好的分类性能.实验结果验证了该方法的优越性.  相似文献   

12.
DIVCLUS-T is a divisive hierarchical clustering algorithm based on a monothetic bipartitional approach allowing the dendrogram of the hierarchy to be read as a decision tree. It is designed for either numerical or categorical data. Like the Ward agglomerative hierarchical clustering algorithm and the k-means partitioning algorithm, it is based on the minimization of the inertia criterion. However, unlike Ward and k-means, it provides a simple and natural interpretation of the clusters. The price paid by construction in terms of inertia by DIVCLUS-T for this additional interpretation is studied by applying the three algorithms on six databases from the UCI Machine Learning repository.  相似文献   

13.
在包层次的代码重构研究中,为了得到“高内聚、低耦合”的软件结构,层次聚类算法因其简单有效、聚类精度高等特点被认为是一种较好的软件聚类方法。但是,层次聚类算法时间复杂度高,不利于处理较大规模的软件。而基于密度聚类的DBSCAN算法则与之相反,具有较快的聚类速度,但是精度却较低。因此,提出一种基于DBSCAN的软件层次聚类算法,利用DBSCAN算法所产生的类来约束层次聚类算法的聚类空间,该算法可以保持层次聚类算法的精度不变,且它的时间复杂度介于DBSCAN和层次聚类算法之间。实验结果表明,该算法可以有效地对软件进行合理划分,并通过专家评判、模块划分度量指标和算法运行时间对比来表明其比其他常用聚类算法的性能更好。  相似文献   

14.
Classical clustering methods, such as partitioning and hierarchical clustering algorithms, often fail to deliver satisfactory results, given clusters of arbitrary shapes. Motivated by a clustering validity index based on inter-cluster and intra-cluster density, we propose that the clustering validity index be used not only globally to find optimal partitions of input data, but also locally to determine which two neighboring clusters are to be merged in a hierarchical clustering of Self-Organizing Map (SOM). A new two-level SOM-based clustering algorithm using the clustering validity index is also proposed. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data in a better way than classical clustering algorithms on an SOM.  相似文献   

15.
引入信息增益的层次聚类算法   总被引:3,自引:0,他引:3  
层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。  相似文献   

16.
针对传统Mashup服务推荐算法在关键字聚合搜索和网络构建等方式中计算复杂度过高的问题,提出一种基于语义标签的植入引导式层次聚类Mashup服务推荐算法。首先,为提高聚类算法的收敛精度,提高算法运行效率来满足大型数据搜索对算法简化的需求,采用数据预处理和植入易于获取具有代表性的样本数据对聚类进行引导,防止层次聚类算法顶层集分类失败导致的算法聚类失败。其次,利用改进的聚类算法结合实际的Mashup服务数据库,设计了植入引导式层次聚类Mashup服务推荐算法。最后,通过通过仿真对比表明,基于语义的植入式半监督层次聚类Mashup服务推荐算法的精度要好于对比算法,验证所提算法的有效性。  相似文献   

17.
Fuzzy clustering for symbolic data   总被引:10,自引:0,他引:10  
Most of the techniques used in the literature in clustering symbolic data are based on the hierarchical methodology, which utilizes the concept of agglomerative or divisive methods as the core of the algorithm. The main contribution of this paper is to show how to apply the concept of fuzziness on a data set of symbolic objects and how to use this concept in formulating the clustering problem of symbolic objects as a partitioning problem. Finally, a fuzzy symbolic c-means algorithm is introduced as an application of applying and testing the proposed algorithm on real and synthetic data sets. The results of the application of the new algorithm show that the new technique is quite efficient and, in many respects, superior to traditional methods of hierarchical nature  相似文献   

18.
Dubnov  Shlomo  El-Yaniv  Ran  Gdalyahu  Yoram  Schneidman  Elad  Tishby  Naftali  Yona  Golan 《Machine Learning》2002,47(1):35-61
We present a novel pairwise clustering method. Given a proximity matrix of pairwise relations (i.e. pairwise similarity or dissimilarity estimates) between data points, our algorithm extracts the two most prominent clusters in the data set. The algorithm, which is completely nonparametric, iteratively employs a two-step transformation on the proximity matrix. The first step of the transformation represents each point by its relation to all other data points, and the second step re-estimates the pairwise distances using a statistically motivated proximity measure on these representations. Using this transformation, the algorithm iteratively partitions the data points, until it finally converges to two clusters. Although the algorithm is simple and intuitive, it generates a complex dynamics of the proximity matrices. Based on this bipartition procedure we devise a hierarchical clustering algorithm, which employs the basic bipartition algorithm in a straightforward divisive manner. The hierarchical clustering algorithm copes with the model validation problem using a general cross-validation approach, which may be combined with various hierarchical clustering methods.We further present an experimental study of this algorithm. We examine some of the algorithm's properties and performance on some synthetic and standard data sets. The experiments demonstrate the robustness of the algorithm and indicate that it generates a good clustering partition even when the data is noisy or corrupted.  相似文献   

19.
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号