首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

2.
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。  相似文献   

3.
文本聚类技术的有效性验证   总被引:3,自引:0,他引:3       下载免费PDF全文
讨论了利用分类测试集进行聚类量化评价的标准。在此基础上选择k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。实验表明,STC聚类算法在处理文本时充分考虑了文本的特性,其聚类效果较好;基于Ant的聚类算法在聚类的划分时效果受参数输入的影响较大,其聚类结果与STC相比并不具有优势;在Ant聚类算法中引入文本特性后,可以提高文本聚类的效果。  相似文献   

4.
聚类集成方法研究   总被引:5,自引:3,他引:2  
聚类集成通过对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。聚类集成能够较好地检测和处理孤立点,提高聚类结果质量。综述了聚类集成的相关知识,介绍了聚类集成的相关概念和优点;根据使用的聚类算法介绍了3种产生聚类成员方法,分析了各自的优缺点及适用条件;介绍了目前已有的一致性函数,阐述了其基本原理,并指出了其局限;最后讨论了未来的研究方向。  相似文献   

5.
模糊聚类中判别聚类有效性的新指标   总被引:8,自引:0,他引:8  
本文提出了一个在模糊聚类中判别聚类有效性的新指标。该指标可有效地对类问有交叠或有多孤立点的情况做出准确的判定。文中基于模糊C-均值聚类算法(FCM),应用多组的测试数据对其进行了性能分析,并与当前较广泛使用且较具代表性的某些相关指标进行了深入的比较。实验结果表明,该指标函数的判定性能是优越的,它可以自动地确定聚类的最佳个数。  相似文献   

6.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。  相似文献   

7.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

8.
一种基于谱聚类的半监督聚类方法   总被引:6,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

9.
数据挖掘中聚类算法研究进展   总被引:6,自引:0,他引:6  
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。  相似文献   

10.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。  相似文献   

11.
朱二周  孙悦  张远翔  高新  马汝辉  李学俊 《软件学报》2021,32(10):3085-3103
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.  相似文献   

12.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

13.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。  相似文献   

14.
Classical clustering methods, such as partitioning and hierarchical clustering algorithms, often fail to deliver satisfactory results, given clusters of arbitrary shapes. Motivated by a clustering validity index based on inter-cluster and intra-cluster density, we propose that the clustering validity index be used not only globally to find optimal partitions of input data, but also locally to determine which two neighboring clusters are to be merged in a hierarchical clustering of Self-Organizing Map (SOM). A new two-level SOM-based clustering algorithm using the clustering validity index is also proposed. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data in a better way than classical clustering algorithms on an SOM.  相似文献   

15.
基于k最相似聚类的子空间聚类算法   总被引:3,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

16.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

17.
一种基于粗糙集理论的谱聚类算法   总被引:1,自引:1,他引:0  
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高.  相似文献   

18.
一种基于局部密度的分布式聚类挖掘算法   总被引:4,自引:1,他引:3  
倪巍伟  陈耿  吴英杰  孙志挥 《软件学报》2008,19(9):2339-2348
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的.  相似文献   

19.
一种基于加权复杂网络特征的K-means聚类算法   总被引:1,自引:0,他引:1  
在分析了传统的基于划分的K—means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K—means聚类算法(简称WCNFC算法)。实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高。  相似文献   

20.
在分析了传统的基于划分的K-means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K-means聚类算法(简称WCNFC算法)。实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号