首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对传统K-means算法对初始聚类中心选取的问题,提出了基于数据样本密度和距离来选取初始聚类中心的改进K-means算法,该算法保证了初始中心点集的第一点为确定的(最大密度点),在基于距离最远的其他中心点搜索过程中,得到的中心点也基本上是确定的,消除了初始中心点选择的随机性,同时保证了获得较高质量的初始中心点。理论分析和实验结果表明:改进的k-means算法是一种有效的入侵检测方法,根据此方法设计的入侵检测系统是有效可行的。  相似文献   

2.
K-means聚类算法研究综述   总被引:5,自引:0,他引:5  
总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。  相似文献   

3.
K-means聚类算法在随机选择的初始聚类中心的基础上进行聚类,其聚类效果会因为初始聚类中心的不确定性而不稳定。为了优化其聚类效果,提出了基于近邻传播算法(AP算法)的K-means聚类优化算法(APK-means)。该算法首先通过近邻传播算法生成若干个初始聚类,然后依序选择k个聚类规模最大的聚类中心作为K-means聚类算法的初始聚类中心,接着运行K-means聚类。算法有效性分析和实验结果验证了该算法有效优化了K-mean算法的聚类稳定性和有效性。  相似文献   

4.
随着等级测评工作的定期进行,等级测评过程中会不断产生并积累海量的测评数据,但是从以测评报告形式存在的测评数据中无法有效地提取出有价值的信息,无法为后续的等级保护工作形成参考指导。利用K-means聚类算法对等级测评数据进行了分析。首先,介绍了等级测评的概念及基本内容;然后,阐述了K-means聚类算法理论;最后,详细地介绍了基于K-means聚类算法的等级测评数据分析的具体流程,为等级测评数据的充分利用提供了一定的参考。  相似文献   

5.
常彤 《通讯世界》2017,(19):289-290
K-means算法因其简单、易理解、速度快等优点在众多领域得到广泛的应用,然而该算法的K值选取,初始聚类点的选取和对于孤立点的处理等都会影响最终聚类结果.根据k-means算法目前的应用研究现状,针对这些缺点对算法进行改进,最后指出了改进中存在的一些问题,并指出未来的研究方向.  相似文献   

6.
聚类分析技术是数据挖掘中一个重要的分析手段,聚类结果要求数据组内的对象相似性较高,数据组对象之间的相似性较低。到目前为止,有各种各样的聚类算法,其中K-means算法最为广泛,它是采用误差平方和准则函数作为聚类准则函数。但是K-means算法也有不足之处,比如k值无法确定,时间开销很大等。针对这些缺点,文章提出了一种改进的基于K-means的信息聚类算法研究。  相似文献   

7.
本文对传统的K-means聚类算法进行了深入的分析研究,发现了算法当中的一些缺陷和漏洞,并且找出可以改进K-means聚类算法的方法,使聚类分析的结果更具有实际意义,保证了聚类结果的高质量。  相似文献   

8.
王东  王理想 《半导体光电》2014,35(5):904-907
提出了一种基于距离相似性K-means的红外图像聚类算法。该算法对通过Isomap算法降维后的空间点,进一步进行聚类;算法中引入了密度因素,通过距离相似性的差异进一步排除孤立点和选取初始聚类中心,使数据内部的紧凑性得到加强。经过实验证明,改进后的方法比原方法更有效,时间复杂度也大幅度降低。  相似文献   

9.
在数据挖掘的所有算法中,聚类分析尤为重要.基于划分的聚类算法就是用统计分析的方法研究分类问题.本文介绍了聚类的定义及聚类算法的种类,详细阐述了K均值聚类算法和K中心点聚类算法的基本原理并对它们的性能进行分析,对近年来各学者对基于划分的聚类算法的研究现状进行了梳理,对其具体应用实例做了简要介绍。  相似文献   

10.
一种改进的特征加权K-means聚类算法   总被引:4,自引:0,他引:4  
提出了一种改进的特征加权K-means聚类算法.该算法首先基于数据样本分布选取初始聚类中心,然后设计特征加权的K-means聚类算法.实验结果证明,该算法能产生质量较高的聚类结果,并且能处理数值、符号两类数据.  相似文献   

11.
《信息技术》2019,(11):20-23
文中对大数据聚类算法K-means算法及其优化进行研究,并主要针对确定聚类数目和初始中心给出了优化的算法。首先,利用平均误差平方和的指标来评估聚类结果的好坏,从而确定聚类的数目;其次,利用秩序化原始数据的方法进而实现有序选取初始中心;最终由结果分析看出,优化后算法相比于传统算法,聚类效果更好。  相似文献   

12.
《现代电子技术》2019,(23):150-153
数据产生的渠道越来越多,速度越来越快,大量的数据为数据分析和处理带来了较大的难度,云平台中的数据种类和规模也在不断扩大,超大的数据规模给数据的存储、管理、分析等带来了前所未有的挑战。数据量剧增会导致数据的可靠性不足,如何有效地处理数据之间的关系,降低冗余数据,建立多维数据去重聚类模型是业界共同努力的方向。文中最先介绍了在大数据挖掘下的多维聚类算法,通过分析大数据内部之间的关系,建立一种适合大数据处理的多维数据去重聚类算法分析模型,对该算法进行改进和实验分析,得到该算法在采样时所存在的复杂度较低,数据分析的结果准确,有利于实现数据的分析和处理,减少数据的冗余,增加数据分析的效率,具有良好的判定效果。  相似文献   

13.
一种改进的K平均聚类算法   总被引:2,自引:0,他引:2  
典型K平均算法中的聚类数k必须是事先给定的确定值,然而实际中很难精确确定,因而无法解决该核算法的实际问题.为此,提出距离代价函数作为最佳聚类数的有效性检验函数,建立了相应的数学模型,并据此提出了一种改进的k值优化算法.实验证明,与传统基于平均值方法实现数据聚类相比,用改进K值优化算法有效提高数据聚类效果.  相似文献   

14.
ITERATE: a conceptual clustering algorithm for data mining   总被引:2,自引:0,他引:2  
The data exploration task can be divided into three interrelated subtasks: 1) feature selection, 2) discovery, and 3) interpretation. This paper describes an unsupervised discovery method with biases geared toward partitioning objects into clusters that improve interpretability. The algorithm ITERATE employs: 1) a data ordering scheme and 2) an iterative redistribution operator to produce maximally cohesive and distinct clusters. Cohesion or intraclass similarity is measured in terms of the match between individual objects and their assigned cluster prototype. Distinctness or interclass dissimilarity is measured by an average of the variance of the distribution match between clusters. The authors demonstrate that interpretability, from a problem-solving viewpoint, is addressed by the intraclass and interclass measures. Empirical results demonstrate the properties of the discovery algorithm and its applications to problem solving  相似文献   

15.
在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集群代表的基础上,改为选取多中心点进行增量式聚类算法的分析。但是,通过这样的算法进行数据分析也存在一定的问题,主要表现在其中心点选择是固定的,灵活性很差。基于以上原因,文中将对原有基础算法做出改进,主要对大数据中数据挖掘模型的增量型模糊聚类算法做出分析,经实践验证,改进后算法切实可行,普适性较强。  相似文献   

16.
数据挖掘中的客户聚类分析及其算法实现   总被引:5,自引:0,他引:5  
给出了数据挖掘技术中的数据聚类算法,把该方法应用到客户类型的数据挖掘中,企业可实现对客户的聚类分析,进而对同一类型的客户实行相同的营销策略,对不同类型的客户进行差别营销策略的制定。  相似文献   

17.
《现代电子技术》2019,(11):161-164
针对传统数据挖掘算法只适用于小规模数据挖掘处理,由于数据规模不断增大,其存在计算效率低、内存不足等问题,文中将MapReduce用于数据挖掘领域,对大数据挖掘中的MapReduce进行了并行化改进,并设计相应的并行化实现模型,以期满足大数据分析需求,完成低成本、高性能的数据并行挖掘与处理。  相似文献   

18.
《现代电子技术》2017,(20):31-33
针对传统的英语教学能力评估算法存在大数据信息分类不准的问题,提出基于大数据模糊K均值聚类和信息融合的英语教学能力估计算法。首先,建立约束参量指标分析模型;其次,使用定量递归分析方法对大数据信息模型的能力进行评估,实现能力约束特征信息的熵特征提取;最后,融合大数据信息融合及K均值聚类算法,实现英语教学能力的指标参数聚类和整合,编制相应的教学资源分配计划,实现英语教学能力评估。试验结果表明,采用该方法进行英语教学能力评估,具有较好的信息融合分析能力,提高了教学能力评估的准确性和教学资源应用效率。  相似文献   

19.
《无线互联科技》2019,(11):125-128
通过收集南通市市区公交线路名称和站点名称,在不依赖GPS定位数据的基础上,采用Canopy和K-means聚类算法分析乘客上车时间序列,从而建立乘客上车站点的理论模型,并在Hadoop平台上用MapReduce框架实现算法的并行化。最后,以南通公交IC刷卡记录为例,用Canopy算法和K-means算法对IC卡刷卡记录进行分析。实验表明,在Hadoop平台,用Canopy和K-means算法分析公交IC卡数据运行稳定、可靠,具有很好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号