期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李翔宇王开军郭躬德《模式识别与人工智能》2013,26(1):34-41

为得到好的聚类效果,需要挑选适合数据集簇结构的聚类算法。文中提出基于网格最小生成树的聚类算法选择方法,为给定数据集自动选择适合的聚类算法。该方法首先在数据集上构建出网格最小生成树,由树的数目确定数据集的潜在簇结构,然后为数据集选择适合所发现簇结构的聚类算法。实验结果表明该方法较有效,能为给定数据集找出适合其潜在簇结构的聚类算法。相似文献

2.

基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法

张鑫涛马福民曹杰张腾飞《模式识别与人工智能》2019,32(12):1141-1150

针对粗糙K-means聚类及其相关衍生算法需要提前人为给定聚类数目、随机选取初始类簇中心导致类簇交叉区域的数据划分准确率偏低等问题,文中提出基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法.在计算边界区域的数据对象归属于不同类簇的隶属程度时,综合考虑局部密度和距离的混合度量,并采用自适应调整类簇数目的策略,获得最佳聚类数目.选取数据对象稠密区域中距离最小的两个样本的中点作为初始类簇中心,将附近局部密度高于平均密度的对象划分至该簇后再选取剩余的初始类簇中心,使初始类簇中心的选取更合理.在人工数据集和UCI标准数据集上的实验表明,文中算法在处理类簇交叠严重的球簇状数据集时,具有自适应性,聚类精度较优. 相似文献

3.

简单有效的确定聚类数目算法 总被引：2，自引：0，他引：2

下载免费PDF全文

张忠平王爱杰柴旭光《计算机工程与应用》2009,45(15):166-168

很多聚类算法要求用户在聚类之前给出聚类数目,这给用户带来了很大的困难。利用二分思想递归分裂簇内相似度大于给定阈值的簇,最后合并簇间相似度小于给定阈值的簇,来获得最终聚类数目。实验表明提出的算法确定的聚类数目和实际聚类数目相同,并且簇内数据的相似性高,簇间数据的相似性低,该算法简单高效。相似文献

4.

一种基于克隆选择的聚类算法 总被引：3，自引：0，他引：3

罗印升李人厚张维玺《控制与决策》2005,20(11):1261-1264

将克隆选择原理同典型的划分聚类方法结合起来,提出一种克隆选择聚类算法.该算法具有完成任意形状数据集聚类的能力,可以自动确定簇的数目并得到簇的描述信息,计算量小,参数设置容易,适用于具有实值连续属性的数据集.基于模拟数据集和基准数据集分别进行实验,结果表明该算法是有效的. 相似文献

5.

基于簇间相似度判定的自适应K均值算法

陈杰朱娟《计算机工程与设计》2010,31(10)

针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度. 相似文献

6.

基于中心距序降维的聚类算法

下载免费PDF全文

向剑平唐常杰郑皎凌易树鸿《计算机工程》2010,36(12):58-60

为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。相似文献

7.

基于聚类准则函数的改进K-means算法

下载免费PDF全文

张雪凤张桂珍刘鹏《计算机工程与应用》2011,47(11):123-127

K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。相似文献

8.

基于算法选择和结果评估的自动聚类方法

李翔宇王开军郭躬德《计算机与数字工程》2012,40(11):39-42

文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。相似文献

9.

罚处共享最近邻密度峰聚类算法

高润峰苏一丹覃华《计算机工程与设计》2021,42(12):3407-3414

为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法.设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现簇中心点的自动选择.在人工数据集、UCI真实数据集以及图像数据集上进行仿真实验,其结果表明,该算法能找到数据集的簇中心和簇数目,聚类精度优于相比较的其它算法,该算法是可行的、有效的. 相似文献

10.

结合遗传k均值改进的密度峰值聚类算法

卜秋瑾段隆振段文影《计算机工程与设计》2020,41(4):1012-1016

针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。相似文献

11.

紧邻类与小类数据集下的模糊聚类有效性指标

耿嘉艺钱雪忠周世兵《计算机应用研究》2020,37(9):2651-2655

模糊聚类有效性指标主要是为了解决模糊C-均值算法需要事先给定最佳聚类数的缺陷,但是现有的大多数模糊聚类有效性指标一般过于依赖聚类质心,使得这类指标在含有紧邻类与大小、密度差异大的数据集上无法准确地判断最佳聚类数。为了缓解这个问题,提出了新聚类有效性指标WS。WS指标在一定程度上考虑了最大最小隶属度法则与模糊集偏差,从而全面展示了数据集的整体信息。在人工与真实数据集上,评估WS指标与现有一些指标的有效性,新指标展现出了较高的准确性。在不同的模糊度下,WS有效性指标表现出了较好的鲁棒性。相似文献

12.

基于层次划分的密度优化聚类算法

逄琳刘方爱《计算机应用》2016,36(6):1634-1638

针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。相似文献

13.

基于数据约减的聚类有效性分析

于晓李晨王亚茹《传感器与微系统》2017,36(3)

聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证.为克服这个问题,以文献[1]中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别.实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数. 相似文献

14.

A hybrid particle swarm optimization approach for clustering and classification of datasets

Kuang Yu Huang 《Knowledge》2011,24(3):420-426

This paper introduces a new hybrid cluster validity method based on particle swarm optimization, for successfully solving one of the most popular clustering/classifying complex datasets problems. The proposed method for the solution of the clustering/classifying problem, designated as PSORS index method, combines a particle swarm optimization (PSO) algorithm, Rough Set (RS) theory and a modified form of the Huang index function. In contrast to the Huang index method which simply assigns a constant number of clusters to each attribute, this method could cluster the values of the individual attributes within the dataset and achieves both the optimal number of clusters and the optimal classification accuracy. The validity of the proposed approach is investigated by comparing the classification results obtained for a real-world dataset with those obtained by pseudo-supervised classification BPNN, decision-tree and Huang index methods. There is good evidence to show that the proposed PSORS index method not only has a superior clustering accomplishment than the considered methods, but also achieves better classification accuracy. 相似文献

15.

基于近邻传播算法的最佳聚类数确定方法比较研究 总被引：2，自引：0，他引：2

周世兵徐振源唐旭清《计算机科学》2011,38(2):225-228

在聚类分析中,决定聚类质量的关键是确定最佳聚类数.提出采用聚类效果较好的近邻传播聚类算法对样本进行聚类,运用6种聚类有效性指标分别对聚类结果进行有效性分析,以确定最佳聚类数.具体分析了这些有效性指标,并改进了IGP指标确定最佳聚类数的方法.针对8个数据集,通过实验比较这些指标的性能.分析和实验结果表明,基于近邻传播聚类... 相似文献

16.

一种基于近邻传播算法的最佳聚类数确定方法 总被引：2，自引：0，他引：2

周世兵徐振源唐旭清《控制与决策》2011,26(8):1147-1152

在聚类分析中,决定聚类质量的关键是确定最佳聚类数,对此,从样本几何结构的角度定义了样本聚类距离和样本聚类离差距离,设计了一种新的聚类有效性指标．在此基础上,提出一种基于近邻传播算法确定样本最佳聚类数的方法．理论研究和实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合于确定样本的最佳聚类数．相似文献

17.

K-means算法最佳聚类数确定方法 总被引：10，自引：0，他引：10

周世兵徐振源唐旭清《计算机应用》2010,30(8):1995-1998

K-means聚类算法是以确定的类数k为前提对数据集进行聚类的,通常聚类数事先无法确定。从样本几何结构的角度设计了一种新的聚类有效性指标,在此基础上提出了一种新的确定K-means算法最佳聚类数的方法。理论研究和实验结果验证了以上算法方案的有效性和良好性能。相似文献

18.

局部搜索自适应核模糊聚类方法

刘汉强郑朋《计算机工程与科学》2016,38(8):1735-1740

核模糊C-均值聚类KFCM是利用核函数将数据映射到高维空间,通过计算数据点与聚类中心的隶属度对数据进行聚类的算法,拥有高效、快捷的特点而被广泛应用于各领域,然而KFCM算法存在对聚类中心的初始值敏感和不能自适应确定聚类数两个局限性。针对这两个问题,提出一种局部搜索自适应核模糊聚类方法,该方法引入核方法提高数据的可分性,并构造基于核函数的评价函数来确定最优的聚类数目和利用部分样本数据进行局部搜索以寻找初始聚类中心。人工数据和UCI数据集上的实验结果验证了该算法的有效性。相似文献

19.

A Selection Model for Optimal Fuzzy Clustering Algorithm and Number of Clusters Based on Competitive Comprehensive Fuzzy Evaluation 总被引：2，自引：0，他引：2

《Fuzzy Systems, IEEE Transactions on》2009,17(3):568-577

Fuzzy $c$-means (FCM) and its variants suffer from two problems---local minima and cluster validity---which have a direct impact on the formation of final clustering. There are two strategies---optimization and center initialization strategies---that address the problem of local minima. This paper proposes a center initialization approach based on a minimum spanning tree to keep FCM from local minima. With regard to cluster validity, various strategies have been proposed. On the basis of the fuzzy cluster validity index, this paper proposes a selection model that combines multiple pairs of a fuzzy clustering algorithm and cluster validity index to identify the number of clusters and simultaneously selects the optimal fuzzy clustering for a dataset. The promising performance of the proposed center-initialization method and selection model is demonstrated by experiments on real datasets. 相似文献