首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对大部分聚类算法无法高效地发现任意形状及不同密度的簇的问题,提出了一种高效的基于距离关联性动态模型的聚类改进算法。首先,为提高聚类效率,使用层次聚类算法对数据集进行初始聚类,并剔除样本点含量过低的簇;其次,为发现任意形状及不同密度的簇,以初始聚类结果的簇的质心作为代表点,利用距离关联性动态模型进行聚类,并利用层次聚类的树状结构进行有效的剪枝计算;最后,检验算法的有效性。实验采用Chameleon数据集进行测试,结果表明,该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。  相似文献   

2.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

3.
利用Chameleon算法进行K值选择、相似度函数阈值选择时需要人为给出一些参数,在没有先验知识的情况下,人为确定此类参数难度较大。针对该问题介绍模块度概念,根据结构等价相似度和模块度概念提出一种聚类算法——M-Chameleon。实验结果证明,M-Chameleon可以客观地反映实际聚类情况。  相似文献   

4.
基于投票机制的融合聚类算法   总被引:1,自引:0,他引:1  
以一趟聚类算法作为划分数据的基本算法,讨论聚类融合问题.通过重复使用一趟聚类算法划分数据,并随机选择阈值和数据输入顺序,得到不同的聚类结果,将这些聚类结果映射为模式间的关联矩阵,在关联矩阵上使用投票机制获得最终的数据划分.在真实数据集和人造数据集上检验了提出的聚类融合算法,并与相关聚类算法进行了对比,实验结果表明,文中提出的算法是有效可行的.  相似文献   

5.
在负载自适应数据库系统中,负载特征化部件是关键部分,首先要对负载分类,然后根据分类的情况预测负载性能。负载的分类一般采用聚类算法,聚类算法中比较典型的就是K—means算法。但在K—means算法中,k值必须提前设定而且不能根据负载的实际情况改变,就是对算法的一个改进,使得k值动态的、能够根据负载的实际情况改变。实验结果表明,使用该算法的分类结果预测负载运行时间的准确性有明显提高。  相似文献   

6.
流数据的聚类算法是当前数据挖掘的研究热点之一。本文在分析两层流数据聚类框架的基础上,引入了动微簇、成长簇等概念和FRG思想,提出了Growstream算法,更能反映出流数据的动态特性。  相似文献   

7.
为降低DBSCAN算法的运行时间,结合MCMC(Markov chain Monte Carlo,马尔可夫链蒙特卡洛)采样方法对DBSCAN进行改进,提出一种聚类算法,称为DBSCAN++。其基本思想是优先扩展拓展能力较强的核心对象。通过实验将DBSCAN++与DBSCAN和OPTICS进行对比,实验结果表明,从算法运行时间看,DBSCAN++比DBSCAN平均降低了60.7%,比OPTICS平均降低了70.2%;从聚类准确性角度看,DBSCAN++与DBSCAN和OPTICS相当。在没有影响聚类准确性的情况下,DBSCAN++具有更低的运行时间,是一种有效的聚类算法。  相似文献   

8.
负载自适应数据库系统中,负载特征化部件要实时对各种数据库的访问负载分类,根据分类的情况预测负载对数据库资源需求。是对常规聚类算法的一个改进,提出基于特征向量的聚类算法和基于特征向量的增量聚类算法。使用该算法后负载分类速度和准确性有明显提高。  相似文献   

9.
层次聚类算法的改进及分析   总被引:2,自引:0,他引:2  
层次凝聚算法是一个非常有用的聚类算法,它在迭代地凝聚每次接近对直到所有的数据都属于同一个簇.但层次聚类也存在着几个缺点,如聚类时的时空复杂性高;聚类的簇效率低、误差较大等.经验研究表明,大部分HAC算法都有这样一个趋势:除了在谱系图的顶层,所有低层聚类的簇都是比较小的并且很接近于其他的簇,提出了一种改进算法能够减小时空复杂性并能验证其正确性,分析与实验都证明这种方法是非常有效的.  相似文献   

10.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

11.
文本聚类是聚类的一个重要的研究方向,是聚类在文本处理领域的重要应用.但是,传统的聚类算法在文本聚类应用中的表现并不能让人满意.文中将一种新的聚类算法--Chameleon算法引入中文文本聚类领域中.在构建中文文本聚类模型的基础上结合了分词、文本向量化等技术进行了相关实验.实验的结果表明Chameleon算法可以应用在中文文本聚类领域中,同时也解决了传统算法在聚类形状发现方面的不足.相关实验说明了这种算法在中文文本聚类领域应用中的有效性和实用性.  相似文献   

12.
首先详细讨论了Chameleon算法,包括:Chameleon算法的基本思想、Gk图、图的划分、近似度的计算、层次合并等,然后给出了一个实现Chameleon算法的部分代码。  相似文献   

13.
为了克服Weka系统在聚类算法方面的不足,在Weka的开源环境下进行了二次开发,扩充了聚类算法。介绍了Chameleon算法的基本原理和构建步骤,给出算法的具体描述,并将Chameleon算法嵌入Weka平台,充分利用了其中的类和可视化功能。对实现的系统进行了实验和测试,并对嵌入的算法和原有聚类算法k—means进行了对比分析。实验结果表明,Chameleon算法可获得更好的聚类效果。  相似文献   

14.
基于Chameleon算法的用户聚类的设计与实现   总被引:6,自引:0,他引:6  
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法。文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果。  相似文献   

15.
用户聚类是Web挖掘的重要部分,而Chameleon算法是一种通用的聚类算法.文中把Chameleon算法应用于Web挖掘,设计了Web用户的聚类,采用J2EE体系架构实现了这一算法,并在此基础上做了改进,实验结果表明,该算法取得了良好的效果.  相似文献   

16.
一种增强的κ-means聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文针对κ-modes算法在类的表示方面存在的不足,提出用摘要信息来表示一个类,并给出了一种适用于混合属性的距离定义,得到增强的κ-means算法--κ-summary算法 。理论分析和实验结果表明,κ-sumnlary算法较κ-modes算法和κ-prototypes算法具有更好的精度。  相似文献   

17.
针对K-均值算法对初始值敏感和易陷入局部最优的缺点,提出了一种基于改进差分进化的K-均值聚类算法。该算法通过引入基于Laplace分布的变异算子和Logistic变尺度混沌搜索来增强全局寻优能力。实验结果表明,该算法能够较好地克服传统K-均值算法的缺点,具有较好的搜索能力,且算法的收敛速度较快,鲁棒性较强。  相似文献   

18.
Enhanced Fuzzy System Models With Improved Fuzzy Clustering Algorithm   总被引:2,自引:0,他引:2  
Although traditional fuzzy models have proven to have high capacity of approximating the real-world systems, they have some challenges, such as computational complexity, optimization problems, subjectivity, etc. In order to solve some of these problems, this paper proposes a new fuzzy system modeling approach based on improved fuzzy functions to model systems with continuous output variable. The new modeling approach introduces three features: i) an improved fuzzy clustering (IFC) algorithm, ii) a new structure identification algorithm, and iii) a nonparametric inference engine. The IFC algorithm yields simultaneous estimates of parameters of c-regression models, together with fuzzy c-partitioning of the data, to calculate improved membership values with a new membership function. The structure identification of the new approach utilizes IFC, instead of standard fuzzy c-means clustering algorithm, to fuzzy partition the data, and it uses improved membership values as additional input variables along with the original scalar input variables for two different choices of regression methods: least squares estimation or support vector regression, to determine ldquofuzzy functionsrdquo for each cluster. With novel IFC, one could learn the system behavior more accurately compared to other FSM models. The nonparametric inference engine is a new approach, which uses the alike -nearest neighbor method for reasoning. Empirical comparisons indicate that the proposed approach yields comparable or better accuracy than fuzzy or neuro-fuzzy models based on fuzzy rules bases, as well as other soft computing methods.  相似文献   

19.
一种改进的WCA算法   总被引:1,自引:0,他引:1  
卢弘  孙学梅  任长明 《计算机工程》2006,32(11):147-149
在WCA的基础上,提出了EWCA(Enhanced Weighted Clustering Algorithm)算法,在提高性能的同时降低了开销,并保持了算法的通用性,移动自组网中通过模拟实验对该分簇算法与WCA算法进行了性能比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号