首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
针对具有噪声的基于密度的空间聚类(DBSCAN)算法使用固定参数Eps和Minpts,导致多密度的数据聚类效果不理想的问题,提出了一种适合多密度的DBSCAN改进算法.对数据进行预处理,识别出每个数据对象周围的密度,据此自动生成适合本区域密度的密度阈值.聚类结束前,采用密度阈值进行扩展聚类;进行下一个簇的聚类时自动生成适合本区域的密度阈值,依次进行,直到达到聚类停止条件.大量实验表明:所提算法能有效地对多密度,任意形状的数据进行聚类.  相似文献   

2.
樊仲欣  王兴  苗春生 《计算机应用》2019,39(4):1027-1031
为解决利用层次方法的平衡迭代规约和聚类(BIRCH)算法聚类结果依赖于数据对象的添加顺序,且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题,提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值,还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明,该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高,尤其在大数据集上比密度改进BIRCH准确率提高6个百分点,耗时降低61%。说明该算法能够适用于在线实时增量数据,可以识别非球形簇和体积不均匀簇,具有去噪功能,且时间和空间复杂度明显降低。  相似文献   

3.
在分析常用聚类算法的特点和适应性基础上提出一种基于密度与划分方法的聚类算法。该算法根据数据对象密度分布状态来自动确定聚类簇密度吸引中心点和聚类簇的初始划分;然后利用划分的方法,根据密度可达定义来寻找密度可达数据对象簇,从而完成数据对象簇的最终聚类。实验证明该算法能够很好地处理具有任意形状和大小的簇,能够有效地屏蔽噪声和离群点的影响和发现孤立点;同时也减小了输入参数对领域知识的依赖性。  相似文献   

4.
针对DBSCAN算法存在的参数敏感性和不能区分相连的不同密度的簇等缺陷,提出了一种基于DBSCAN算法的改进算法。算法提出了累积平均密度的概念,用来作为簇合并的依据,弱化了密度阈值Minpts的作用;选取密度最大的对象作为初始聚类中心,按照密度由高到低的顺序进行聚类,具有一定的层次性,因此支持变密度数据集聚类。最后,用数据集对算法进行了聚类实验。实验结果表明,改进算法具有一定的参数鲁棒性,对于相连的不同密度的簇,能够达到理想的聚类效果。  相似文献   

5.
CFSFDP(Clustering by Fast Search and Find of Density Peaks)是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集(2个人工合成数据集,7个UCI数据集)的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。  相似文献   

6.
密度聚类是数据挖掘和机器学习中最常用的分析方法之一,无须预先指定聚类数目就能够发现非球形聚类簇,但存在无法识别不同密度的相邻聚类簇等问题。采用逆近邻和影响空间的思想,提出一种密度聚类分析算法。利用欧氏距离计算数据对象的K近邻与逆近邻,依据逆近邻识别其核心对象,并确定其核心对象的影响空间;利用逆近邻和影响空间,重新定义密度聚类簇扩展条件,并通过广度优先遍历搜索核心对象的影响空间,形成密度聚类簇,有效解决了无法区分不同密度相邻聚类簇等不足,提高了密度聚类分析效果和效率。基于UCI和人工数据集实验验证了该算法的有效性。  相似文献   

7.
IncSNN——一种基于密度的增量聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性.  相似文献   

8.
针对大部分聚类算法无法高效地发现任意形状及不同密度的簇的问题,提出了一种高效的基于距离关联性动态模型的聚类改进算法。首先,为提高聚类效率,使用层次聚类算法对数据集进行初始聚类,并剔除样本点含量过低的簇;其次,为发现任意形状及不同密度的簇,以初始聚类结果的簇的质心作为代表点,利用距离关联性动态模型进行聚类,并利用层次聚类的树状结构进行有效的剪枝计算;最后,检验算法的有效性。实验采用Chameleon数据集进行测试,结果表明,该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。  相似文献   

9.
为克服当前密度聚类算法存在的随机性、主观性和连带错误等问题,提出一种基于两阶段搜索的密度聚类算法。给出密度阈值和簇最近邻定义及计算方法。采用密度排序、簇最近邻分配和自适应搜索策略构建算法的两阶段聚类机制,设计邻域递归搜索和簇最近邻搜索两个阶段的聚类算法,实现不同密度数据点的准确聚类。8个数据集聚类实验结果表明,该密度聚类算法聚类稳定,无噪声,且自动确定类簇数,聚类精度优于比较的密度聚类算法。  相似文献   

10.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

11.
为了改善DBSCAN参数敏感性和对密度分布不均数据对象聚类质量不高的问题,提出了一种基于DBSCAN算法的改进聚类方法。算法使用K最近邻的均值距离度量密度,中心点选取当前密度最大点,并以中心点为核心点扩展种子队列,直至由给定的密度比例因子所决定的密度边缘。为了改善聚类质量,提出了候选核心点,并使用给定的半径比例因子发现核心点。在实验中,利用数据集对该算法进行了测试,测试结果证明了该改进算法的参数鲁棒性,和在聚类密度分布不均数据集时的较好性能。  相似文献   

12.
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。  相似文献   

13.
一个好的聚类算法应该是用户输入参数少,对噪声不敏感,能够发现任意形状,可以处理高维数据,具有可解释性和可扩展性.将聚类分析应用于地理信息系统中,可以实现对GIS数据信息概括和综合.文中提出一种基于距离阈值相邻的聚类算法,通过距离阈值可达的方式逐个将对象加入到已知聚类中,可以发现任意形状的聚类并对噪声数据有很好的分离效果,实验中将该算法应用于地理信息系统中的数据挖掘实现上,结果证明此算法对于实现GIS聚类具有满意的效果.  相似文献   

14.
利用支持向量聚类分类准确、参数少、无监督学习的特点,提出一种基于支持向量聚类的图像分割方法。该方法首先对数据集分块并对每块进行SVC聚类,再取其簇内均值作为K均值聚类样本点,进行聚类,最后将得到的结果进行合并。实验证明该方法不但改变了传统分割方法中人为选取阈值参数的作法,而且受目标和噪声影响小,提高了图像分割的鲁棒性和效果,能够有效地进行图像分割。  相似文献   

15.
模糊C均值算法(FCM)是一种用于聚类的最流行的技术。不过,传统的FCM使用欧氏距离作为数据集的相似准则,从而导致数据集的划分有相等的趋势。而数据集的形状和簇的密度对聚类性能有高度影响。为了解决这个问题,提出基于簇密度的距离调节因子以修正相似性度量。同时,针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,采用量子粒子群优化算法以获取全局最优解。仿真实验证明,改进的聚类算法(QPSO-FCM-CD)具有良好的性能。  相似文献   

16.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。  相似文献   

17.
Clustering categorical data sets using tabu search techniques   总被引:2,自引:0,他引:2  
Clustering methods partition a set of objects into clusters such that objects in the same cluster are more similar to each other than objects in different clusters according to some defined criteria. The fuzzy k-means-type algorithm is best suited for implementing this clustering operation because of its effectiveness in clustering data sets. However, working only on numeric values limits its use because data sets often contain categorical values. In this paper, we present a tabu search based clustering algorithm, to extend the k-means paradigm to categorical domains, and domains with both numeric and categorical values. Using tabu search based techniques, our algorithm can explore the solution space beyond local optimality in order to aim at finding a global solution of the fuzzy clustering problem. It is found that the clustering results produced by the proposed algorithm are very high in accuracy.  相似文献   

18.
传统DBSCAN算法对密度分布不均匀的不平衡数据集的聚类效果并不理想,同时传统算法的聚类结果对邻域半径(Eps)以及核心点阈值(MinPts)敏感.针对以上问题,改进了传统算法,提出了一种基于最小生成树的密度聚类算法(MST-DBSCAN).由于对象之间的距离对聚类结果影响较大,为了更好地表示对象之间的距离特性,首先使...  相似文献   

19.
Clustering is an important and popular technique in data mining. It partitions a set of objects in such a manner that objects in the same clusters are more similar to each another than objects in the different cluster according to certain predefined criteria. K-means is simple yet an efficient method used in data clustering. However, K-means has a tendency to converge to local optima and depends on initial value of cluster centers. In the past, many heuristic algorithms have been introduced to overcome this local optima problem. Nevertheless, these algorithms too suffer several short-comings. In this paper, we present an efficient hybrid evolutionary data clustering algorithm referred to as K-MCI, whereby, we combine K-means with modified cohort intelligence. Our proposed algorithm is tested on several standard data sets from UCI Machine Learning Repository and its performance is compared with other well-known algorithms such as K-means, K-means++, cohort intelligence (CI), modified cohort intelligence (MCI), genetic algorithm (GA), simulated annealing (SA), tabu search (TS), ant colony optimization (ACO), honey bee mating optimization (HBMO) and particle swarm optimization (PSO). The simulation results are very promising in the terms of quality of solution and convergence speed of algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号