首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了更好地评价无监督聚类算法的聚类质量,解决因簇中心重叠而导致的聚类评价结果失效等问题,对常用聚类评价指标进行了分析,提出一个新的内部评价指标,将簇间邻近边界点的最小距离平方和与簇内样本个数的乘积作为整个样本集的分离度,平衡了簇间分离度与簇内紧致度的关系;提出一种新的密度计算方法,将样本集与各样本的平均距离比值较大的对象作为高密度点,使用最大乘积法选取相对分散且具有较高密度的数据对象作为初始聚类中心,增强了K-medoids算法初始中心点的代表性和算法的稳定性,在此基础上,结合新提出的内部评价指标设计了聚类质量评价模型,在UCI和KDD CUP 99数据集上的实验结果表明,新模型能够对无先验知识样本进行有效聚类和合理评价,能够给出最优聚类数目或最优聚类范围.  相似文献   

2.
聚类算法在学生综合评价中的应用   总被引:1,自引:1,他引:1  
聚类分析是数据挖掘的一个重要研究方向,将聚类算法应用在高校学生综合素质评价中,借助聚类算法对学生进行合理分类,并在此基础上给出学生的综合素质排名,可以减少人为主观因素对评价结果的影响.  相似文献   

3.
关系数据可抽象为网络,在通常情况下,缺乏对这些现实网络背景知识的了解。为了评价图聚类算法在现实网络上的性能表现,构建了一种接近现实的网络模型,通过算法在模型网络上的性能表现来推断其分析现实网络的能力。为了确保此推断的合理性,构建的模型网络具有与所研究网络完全相同的一阶统计特征。同时,构建的模型网络可具有任意设定的集团结构,这就相当于给定了背景知识,即真实的分类信息是已知的。实例说明,构建的模型为客观评价图聚类算法提供了一条途径。  相似文献   

4.
从数据挖掘的概念入手, 以数据结构的角度看待数据挖掘的研究对象, 对数据挖掘的重要工具——聚类做了深入的论述, 把聚类分为基于数据元素的Q 型聚类和基于属性的R 型聚类, 着重讨论了R 型聚类, 论述了相关的概念、技术和算法。最后介绍了一个实际应用系统———医生医疗质量评价系统, 提出了一些新的观点及算法设计思路。  相似文献   

5.
聚类算法作为发现数据内在结构与分布特征的无监督学习方法,被广泛应用于各个领域。伴随着互联网的高速发展和在线文档数量的大幅增加,文本聚类已成为一项重要任务。讨论文本聚类算法的基本概念与应用场景,对文本聚类算法及评价方法进行综述。  相似文献   

6.
7.
将灰色聚类法应用到湿地水体富营养化评价中,旨在建立起一套比较完善、适合于湿地水体富营养化的评价体系。把湿地水体富营养化程度划分为6个级别,其阚值参照中国湖泊富营养化评价标准和湿地富营养化的特点。利用灰类白化权函数描述水体富营养化分级界限,正确地选择了各参评指标对于各等级的聚类权,在此基础上构建了湿地水体富营养化灰色聚类法综合评判模型。并以扎龙湿地为例进行了实例计算与分析,验证了此模型的准确性、可比性和实用性。  相似文献   

8.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

9.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

10.
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。  相似文献   

11.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

12.
聚类算法在入侵检测中的应用   总被引:1,自引:0,他引:1  
入侵检测中对未知入侵的检测主要由异常检测完成,传统的异常检测方法需要构造一个正常行为特征轮廓的参考模型,但获取完全正常的数据比较困难。介绍的聚类技术是应用到入侵异常检测中的一种较为新颖的技术,是一种无需指导的异常检测技术,可以区分哪些是正常记录,哪些是异常记录。分析了将聚类方法应用于入侵检测中的可行性及对数据处理的标准化方法。另外,给出了基于覆盖的聚类算法与两种经典聚类算法的比较。  相似文献   

13.
在开发供水管网调度决策系统时,需对供水管网数百个节点的压力变化及相互间关系进行分析,工作量较大。针对此问题,采用系统聚类中的类平均法将节点聚类,并利用离均差从各类中筛选出代表点。提出针对数据采集时的缺失值及节点间采集时刻不一致问题的数据预处理方法。经实例检验,得出的节点具有良好的代表性及全面性,可满足工程需求。  相似文献   

14.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。  相似文献   

15.
聚类分析在数据挖掘领域中是一个非常重要的研究课题,该文阐述了聚类算法的基本原理和性能要求,并依据算法思想的不同把聚类算法分为五类,详细介绍了每一类的算法思想、优缺点及典型算法,有利于用户对聚类算法的选择和研究者对聚类算法的改进研究,最后探讨了聚类算法今后的发展趋势。  相似文献   

16.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

17.
朱永红 《微机发展》2007,17(1):123-124
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

18.
针对现有研究中给出的聚类有效性指标不能有效评价不同结构数据集的聚类结果问题,提出一种使用多个有效性指标进行聚类评价的组合方法。引入D-S(Dempster-Shafer)证据理论对多个有效性指标结果进行集成,并得到最终的聚类评价结果。仿真实验和分析验证了该方法的可行性与有效性。  相似文献   

19.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

20.
属性聚类算法在入侵检测中的应用   总被引:1,自引:0,他引:1  
理论分析表明属性均值聚类是比模糊均值聚类更稳健的聚类方法,因此本文提出了基于属性均值聚类的入侵检测新方法。实验结果表明该方法对入侵检测是非常有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号