首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

2.
陈晋音  何辉豪 《自动化学报》2015,41(10):1798-1813
面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类 质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对 这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据 聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数 值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取 相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础 上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数 据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异 点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采 用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到 任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类 中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高 密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文 提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行 算法性能比较,验证本文提出算法具有较高的聚类质量.  相似文献   

3.
冯柳伟    常冬霞    邓勇  赵耀   《智能系统学报》2017,12(1):67-74
聚类算法是数据分析中广泛使用的方法之一,而类别数往往是决定聚类算法性能的关键。目前,大部分聚类算法需要预先给定类别数,在很多情况下,很难根据数据集的先验知识获得有效的类别数。因此,为了获得数据集的类别数,本文基于最近邻一致性和最远邻相异性的准则,提出了一种最近最远得分评价指标,并在此基础上提出了一种自动确定类别数的聚类算法。实验结果证明了所提评价指标在确定类别数时的有效性和可行性。  相似文献   

4.
针对DBSCAN聚类算法不能对变密度分布数据集进行有效聚类,VDBSCAN算法借助k-dist图来自动获取各个密度层次的数据对象的邻域半径,解决了具有不同密度层次分布数据集的聚类问题. k-VDBSCAN算法通过对k值的自动获取,减小了VDBSCAN中参数k对最终聚类结果的影响. 针对k值的自动获取,在原有的k-VDBSCAN聚类算法基础上,依据数据集本身,利用数据对象间距离的特征,提出了一种k值改进自动获取聚类算法. 理论分析与实验结果表明,新的改进算法能够有效的自动获得参数k的值,并且在聚类结果、时间效率方面都有明显的提高.  相似文献   

5.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

6.
传统的聚类算法通常基于单一的距离度量而设计,如何将多种距离度量有机融合在一起是当前面临的一个挑战。提出了一种基于多目标进化算法的多距离度量聚类框架(multiobjective evolutionary multiple distance measure clustering,MOMDC),并使用欧氏距离和Path距离来设计实际框架。该框架首先将数据集分别用两种距离测度预聚类,而后将预聚类结果做合并,以降低问题的规模;其次分别计算子类间的两种距离关系;最后使用多目标进化算法在两种距离空间中并行聚类。在多目标进化算法设计中,使用实数-标签的编码方式来设计染色体,并且设计了基于两种距离测度的两个适应度函数对染色体进行评估。最终将MOMDC与其他几种经典算法在大量的数据集上进行实验对比。实验表明,该框架对不同分布的数据集均能取得良好的结果。  相似文献   

7.
针对传统的模糊核聚类算法(FKCM)需给出聚类个数,且对初始值敏感、易陷入局部最优的缺点,本文提出了一种基于高斯核化有效性指标的自适应优选聚类数的模糊核聚类算法(GKVI-AOCN-FKCM)。利用基于密度和距离的方法选取初始聚类中心,克服了对初始值的敏感,提高了聚类效率。然后用高斯核函数核化后的有效性指标评价聚类效果并自动确定最佳分类数,从而无监督地实现对数据集的模糊划分。对Iris数据集的仿真实验及石脑油属性数据分类的应用验证了算法的可行性和有效性。  相似文献   

8.
多层自动确定类别的谱聚类算法   总被引:1,自引:0,他引:1  
金慧珍  赵辽英 《计算机应用》2008,28(5):1229-1231
自动确定聚类数和海量数据的处理是谱聚类的关键问题。在自动确定聚类数谱聚类算法的基础上,提出了一种能处理大规模数据集的多层算法。该算法的核心思想是把大规模数据集根据一定的相关性逐级进行合并,使之成为小数据集,再对分组后的小数据集用自动确定类别的谱聚类算法聚类,最后逐层进行拆分并微调, 完成全部数据的聚类。实验证明该算法的聚类效果很好。  相似文献   

9.
针对DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法对参数敏感且无法适用于多密度数据集聚类的缺点,提出一种改进的基于一维投影分析的无参数多密度聚类算法PFMDBSCAN(Parameter Free Multi-Density Clustering Using One-dimensional Projection Analysis).算法首先对数据集进行一维投影,并对投影后的数据进行高斯核密度估计,据此采用极值策略得到多个局部密度估计值,将每个局部密度估计值转换为参数后依次调用DBSCAN进行聚类,最终得到完整的聚类结果.该算法达到了聚类无参数化且能适用于多密度的目标.实验表明,本文提出的无参数算法对单密度和多密度数据集都有较好的聚类效果,能适用于任意形状、任意密度的数据集,且具有较强的抗噪性.与近期文献中提出的无参数多密度聚类算法APSCAN相比,不仅聚类效果更好,且计算复杂性更低.  相似文献   

10.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。  相似文献   

11.
K‐means clustering can be highly accurate when the number of clusters and the initial cluster centre are appropriate. An inappropriate determination of the number of clusters or the initial cluster centre decreases the accuracy of K‐means clustering. However, determining these values is problematic. To solve these problems, we used density‐based spatial clustering of application with noise (DBSCAN) because it does not require a predetermined number of clusters; however, it has some significant drawbacks. Using DBSCAN with high‐dimensional data and data with potentially different densities decreases the accuracy to some degree. Therefore, the objective of this research is to improve the efficiency of DBSCAN through a selection of region clusters based on density DBSCAN to automatically find the appropriate number of clusters and initial cluster centres for K‐means clustering. In the proposed method, DBSCAN is used to perform clustering and to select the appropriate clusters by considering the density of each cluster. Subsequently, the appropriate region data are chosen from the selected clusters. The experimental results yield the appropriate number of clusters and the appropriate initial cluster centres for K‐means clustering. In addition, the results of the selection of region clusters based on density DBSCAN method are more accurate than those obtained by traditional methods, including DBSCAN and K‐means and related methods such as Partitioning‐based DBSCAN (PDBSCAN) and PDBSCAN by applying the Ant Clustering Algorithm DBSCAN (PACA‐DBSCAN).  相似文献   

12.
This work proposes a novel data clustering algorithm based on the potential field model, with a hierarchical optimization mechanism on the algorithm. There are two stages in this algorithm. Firstly, we build an edge-weighted tree based on the mutual distances between all data points and their hypothetical potential values derived from the data distribution. Using the tree structure, the dataset can be divided into an appropriate number of initial sub-clusters, with the cluster centers close to the local minima of the potential field. Then the sub-clusters are further merged according to the well-designed merging criteria by analyzing their border potential values and the cluster average potential values. The proposed clustering algorithm follows a hierarchical clustering mechanism, and aims to optimize the initial sub-cluster results in the first stage. The algorithm takes advantage of the cluster merging criteria to merge the sub-clusters, so it can automatically stop the clustering process without designating the number of clusters in advance. The experimental results show that the proposed algorithm produces the most satisfactory clustering results in most cases compared with other existing methods, and can effectively identify the data clusters with arbitrary shape, size and density.  相似文献   

13.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

14.
罗会兰  危辉 《计算机科学》2010,37(8):214-218
提出了基于数学形态学的聚类集成算法CEOMM.它利用不同的结构元素的探针作用,对不同的结构元素探测出来的簇核心图进行集成,在集成所得到的簇核心基础上聚类.实验结果表明,算法CEOMM对有复杂类形状的数据集进行聚类时,效果比传统聚类算法更好,且能确定聚类数.而且由于采用了不同的结构元素进行探测,对于由不同形状的类构成的数据集其聚类效果很理想.  相似文献   

15.
基于密度峰值优化的谱聚类算法   总被引:1,自引:0,他引:1  
针对经典谱聚类算法无法自适应确定聚类数目、以及在处理大数据量的聚类问题时效率不高的问题,本文提出了一种基于密度峰值优化的谱聚类算法。该方法首先计算数据对象的局部密度,以及每个数据对象与较其他数据对象的最小距离,并依据一定的规则自适应产生初始聚类中心,确定聚类数目。其次,使用Nystr?m抽样来降低特征分解的计算复杂度以达到提高谱聚类算法的效率。实验结果表明,本文方法能够准确地得到聚类数目,并且有效提高聚类的准确率和效率。  相似文献   

16.
基于二部图的概念聚类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
传统概念聚类算法中簇的更新和存储不仅依赖于对象数目和属性数目,而且依赖于属性值的数目,这种局限性使其不适用于大型数据集。提出一种新的基于二部图的概念聚类算法(BGBCC),该算法通过获得二部图的近似极大ε二元组集,有效地进行数据与属性的关联聚类。实验表明,该算法能得到较好的聚类结果,且能在较短的时间内进行大型数据集的概念聚类。  相似文献   

17.
How many clusters? An information-theoretic perspective   总被引:6,自引:0,他引:6  
Still S  Bialek W 《Neural computation》2004,16(12):2483-2506
  相似文献   

18.
一种基于蜂群原理的划分聚类算法*   总被引:1,自引:0,他引:1  
针对现有的大部分划分聚类算法受聚类簇的个数K的限制,提出一种基于蜂群原理的划分聚类算法。该方法通过引入蜂群采蜜机制,将聚类中心视为食物源,通过寻找食物源的自组织过程来实现数据对象的聚集。在聚类的过程中引入紧密度函数来评价聚类中心(局部),引入分离度函数来确定最佳聚类簇的个数(全局)。与传统的划分聚类算法相比,本算法无须指定聚类个数即可实现聚类过程。通过仿真实验表明,本文提出的算法不但对最佳聚类数有良好的搜索能力,而且有较高的准确率:算法时间复杂度仅为O(n*k3)(k<相似文献   

19.
采用谱系聚类方法对大量数据进行离散化处理,通过散点图和树状图自动寻求最优分类数目。胶合板缺陷检测样本数据离散化实验结果表明,该方法根据数据内部结构特点,进行了可变的类别划分,与可k均值聚类和模糊聚类相比,该方法使约简的条件属性进一步减少,有利于数据的后期处理,并且进一步减少了系统的运行时间。  相似文献   

20.
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号