首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 114 毫秒
1.
杨虎  付宇  范丹 《计算机科学》2018,45(7):22-30, 52
聚类内部有效性指标是在未知样本真实分类情况下用于评价聚类结果优劣、寻找最佳聚类个数的指标,是聚类分析研究中的重要内容。虽然已有大量的研究分析了聚类内部有效性指标的性能,且有研究结论表明某些内部有效性指标的性能良好,能够辅助聚类算法找到最佳聚类个数,但这些研究未考虑真实数据中的噪音特征对内部有效性指标的影响,研究结论可能会误导内部有效性指标的选取和应用。为此,选取了10种常用的内部有效性指标来研究噪音特征对内部有效性特征选择和聚类结果的影响。结果表明,数据中的噪音特征会影响内部有效性指标的性能,除KL指标、CH指标和CCC指标对噪音特征的反应相对不敏感外,其他内部有效性指标均对噪音特征敏感,且聚类结果的准确性会随着噪音的增强而降低。  相似文献   

2.
本文提出了一种双层结构的基因表达数据聚类算法,该算法针对基因表达数据量庞大且已知功能的基因较少的特点,将聚类过程分为两个层次,快速分析层和精确聚类层。聚类结果采用信息熵方法进行评价。实验结果表明该聚类方法对于聚类基因表达数据非常有效。  相似文献   

3.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

4.
模糊聚类方法可以更有效地对复杂数据集进行分析,由于模糊聚类算法的种类繁多且聚类结果会随着输入的聚类个数的不同而改变,使得模糊聚类算法产生的结果不准确,因此,要获得准确的聚类结果必须确定模糊聚类个数k.目前已有的研究主要是利用多种模糊聚类有效性指标来确定最优聚类个数k,但是诸如SSD,PBM等模糊聚类指标会随着划分的聚类个数k的增加而单调递减,导致聚类个数k不准确.为此,文中提出了一种结合多目标优化算法的模糊聚类有效性指标(A Validity Index of Fuzzy Clustering Combined with Multi-obj ective Optimization Algorithm,OSACF),将模糊聚类度量指标与多目标优化算法(Multi-Obj ective Optimization Algorithm,MOEA)相结合来解决聚类最优个数k的问题.与使用聚类有效性指标不同,OSACF通过建立聚类个数k与聚类度量指标之间的双目标模型并使用MOEA优化该双目标模型来确定最优聚类个数k,避免了聚类有效性指标趋于单调递减的影响.另一方面,OSACF使用形态形似距离替代传统的欧氏距离度量,避免了聚类形状对计算聚类k值的影响.实验结果表明,OSACF结合MOEA得到的最优模糊聚类个数k比已有的聚类有效性指标获得的结果更准确.  相似文献   

5.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。  相似文献   

6.
为了更好地评价无监督聚类算法的聚类质量,解决因簇中心重叠而导致的聚类评价结果失效等问题,对常用聚类评价指标进行了分析,提出一个新的内部评价指标,将簇间邻近边界点的最小距离平方和与簇内样本个数的乘积作为整个样本集的分离度,平衡了簇间分离度与簇内紧致度的关系;提出一种新的密度计算方法,将样本集与各样本的平均距离比值较大的对象作为高密度点,使用最大乘积法选取相对分散且具有较高密度的数据对象作为初始聚类中心,增强了K-medoids算法初始中心点的代表性和算法的稳定性,在此基础上,结合新提出的内部评价指标设计了聚类质量评价模型,在UCI和KDD CUP 99数据集上的实验结果表明,新模型能够对无先验知识样本进行有效聚类和合理评价,能够给出最优聚类数目或最优聚类范围.  相似文献   

7.
赵宇海  王国仁  印莹 《计算机应用》2005,25(6):1388-1391
提出了一种用于基因表达数据的无参数聚类算法。该算法把多维数据的模糊聚类方法与CTWC相结合,并引入基于范数的方法进一步对该方法加以改进和论证。将该算法应用于真实的结肠癌基因表达数据集,确定了含8个基因的特征基因组合,该特征基因组合不仅达到了90%左右的结肠癌样本识别率,还能鉴别结肠癌样本的亚型。实验结果充分验证了这种算法的可行性。  相似文献   

8.
针对传统的模糊核聚类算法(FKCM)需给出聚类个数,且对初始值敏感、易陷入局部最优的缺点,本文提出了一种基于高斯核化有效性指标的自适应优选聚类数的模糊核聚类算法(GKVI-AOCN-FKCM)。利用基于密度和距离的方法选取初始聚类中心,克服了对初始值的敏感,提高了聚类效率。然后用高斯核函数核化后的有效性指标评价聚类效果并自动确定最佳分类数,从而无监督地实现对数据集的模糊划分。对Iris数据集的仿真实验及石脑油属性数据分类的应用验证了算法的可行性和有效性。  相似文献   

9.
在比特流未知协议识别过程中,针对如何将得到的多协议数据帧分为单协议数据帧这一问题,提出了一种改进的凝聚型层次聚类算法。该算法以传统的凝聚型层次聚类算法思想为基础,结合比特流数据帧的特征,定义了数据帧之间及类簇之间的相似度,采用边聚类边提取符合要求类簇的方式,能快速有效地对数据帧进行聚类;并且该算法能自动地确定聚类的个数,所得的类簇含有相似度评价指标。利用林肯实验室公布的数据集进行测试,说明该算法能以较高的正确率对协议数据帧进行聚类。  相似文献   

10.
宋艳  殷俊 《计算机应用》2020,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

11.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

12.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

13.
PAM是最早提出的k-medoids算法之一,该算法比较健壮,比k-means算法鲁棒性更强,但是PAM对初始值敏感,易陷入局部收敛。利用PSO算法对PAM进行优化,提出一种基于PSO和PAM的聚类方法,充分利用PAM和PSO两者对于不同问题的优势,来不断地更新PAM的聚类中心。通过建立基于熵的聚类有效性函数,对混合聚类算法的性能进行客观评价。从来自UCI的数据的测试结果表明,这种混合聚类的方法有较高的聚类正确率。  相似文献   

14.
聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证.为克服这个问题,以文献[1]中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别.实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数.  相似文献   

15.
肖升生  刘鹏 《计算机应用研究》2011,28(10):3665-3670
为了深入地探索聚类结果簇的形态特征,提出了一种基于维度映射的类圆簇识别算法。该算法将结果簇按维度进行映射,通过比较、分析簇在各个映射维度上的频数曲线及形态特征,自动将类圆簇从众多结构复杂的聚类结果簇中识别出来。算法经过大量实验验证,具有很好的识别能力和抗干扰能力,对于高维度数据集合也具有很强的扩展性。  相似文献   

16.
聚类中心初始化的新方法   总被引:4,自引:1,他引:3  
k-均值聚类算法易受初始聚类中心的影响而陷入局部最优解.现有聚类中心初始化方法尚未得到广泛认可.本文依据每个类内至少有一个数据稠密区,且处于不同类的数据稠密区比处于同一类的数据稠密区相距更远的假设,在数据集合上构造一棵最小支撑树,应用根树原理在其上搜索数据稠密区并估计其密度,从中选出密度大且足够分离的数据稠密区,以其内的点作为初始聚类中心,得到了一个聚类中心初始化的新方法.将此方法与现有的方法进行比较,仿真实验表明,本文方法性能更优越.  相似文献   

17.
一种无线传感器网络分簇规模约束算法   总被引:1,自引:1,他引:0  
针对无线传感器网络节点能耗受限和不同节点能量开销不平衡的问题,对于分层结构的无线传感器网络提出了一种分簇规模约束算法.该算法是通过对簇内节点数量设置上下限的方式,对簇规模大小进行限制.如果簇中节点的数量超过上限(U),该簇就被划分为两个簇;如果簇中节点的数量低于下限(L),该簇就会和邻居簇相结合.在自组簇的形成过程中采用该算法,可减少节点能量开销和增加簇的稳定性.  相似文献   

18.
This paper proposes a new method for estimating the true number of clusters and initial cluster centers in a dataset with many clusters. The observation points are assigned to the data space to observe the clusters through the distributions of the distances between the observation points and the objects in the dataset. A Gamma Mixture Model (GMM) is built from a distance distribution to partition the dataset into subsets, and a GMM tree is obtained by recursively partitioning the dataset. From the leaves of the GMM tree, a set of initial cluster centers are identified and the true number of clusters is estimated. This method is implemented in the new GMM-Tree algorithm. Two GMM forest algorithms are further proposed to ensemble multiple GMM trees to handle high dimensional data with many clusters. The GMM-P-Forest algorithm builds GMM trees in parallel, whereas the GMM-S-Forest algorithm uses a sequential process to build a GMM forest. Experiments were conducted on 32 synthetic datasets and 15 real datasets to evaluate the performance of the new algorithms. The results have shown that the proposed algorithms outperformed the existing popular methods: Silhouette, Elbow and Gap Statistic, and the recent method I-nice in estimating the true number of clusters from high dimensional complex data.  相似文献   

19.
针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。  相似文献   

20.
目标函数二阶差分方法利用目标函数值随类别数的梯度变化作为判定准则,直接利用目标函数值与聚类数的关系,实现在不同数据集上自动得到正确的聚类数,但计算最佳聚类数会占用一定时间。当样本总数较大时,采用该方法得到最佳聚类数计算量非常大。针对此问题,本文提出基于均匀抽样的二阶差分聚类数确定方法,首先采用改进的均匀抽样设计,然后在所得到的数据子集上进行二阶差分设计。实验结果表明,该方法在减少计算量的同时达到了期望的正确判断。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号