首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。  相似文献   

2.
一种基于密度的k-means聚类算法   总被引:1,自引:0,他引:1  
针对k-means算法中对初始聚类中心和孤立点敏感的缺点,提出一种基于密度的改进k-means算法.该算法引入信息熵和加权距离,从近邻密度出发,去除孤立点对算法的影响,同时确定初始聚类中心,使得聚类中心相对稳定.实验表明,该算法在准确性、运行效率上均有10%以上的提升.  相似文献   

3.
《信息技术》2015,(7):90-94
根据当前聚类算法与云平台相结合的趋势,针对聚类算法中的k-means自身的缺点,提出用粒子群优化算法优化k均值算法的初始聚类中心,并将改进算法运用云平台全程进行并行处理。以此达到高效、准确地处理大量数据的目的。实验证明,改进后的算法具有相对较高的加速比而且准确性和稳定性也得到提升,将聚类算法和云平台相结合是行之有效的方式。  相似文献   

4.
针对k-means算法的聚类结果对初始聚类中心的选取较为敏感、选择聚类数目存在一定的主观性以及离群数据影响的问题,提出了一种结合孤立森林和鲸鱼优化算法的三支k-means算法(iF-W-TWKM)。首先利用孤立森林算法对数据集进行清洗,将数据集划分为两个子集:正常数据子集和异常数据子集。使用正常数据子集进行后续算法步骤,待算法结束后使用得到的聚类中心将异常数据子集中的样本划分到各类簇的边界域。利用鲸鱼优化算法建立以STDI为目标函数的优化问题进行全局寻优实现聚类中心的选取,避免局部最优。实验结果表明,改进后的算法在ACC、AS、DBI指标上整体优于k-means和TK-means,具有更好的聚类表现。  相似文献   

5.
针对传统K-means算法对初始聚类中心选取的问题,提出了基于数据样本密度和距离来选取初始聚类中心的改进K-means算法,该算法保证了初始中心点集的第一点为确定的(最大密度点),在基于距离最远的其他中心点搜索过程中,得到的中心点也基本上是确定的,消除了初始中心点选择的随机性,同时保证了获得较高质量的初始中心点。理论分析和实验结果表明:改进的k-means算法是一种有效的入侵检测方法,根据此方法设计的入侵检测系统是有效可行的。  相似文献   

6.
本文提出改进的C均值算法.改进算法引入数据场模型,通过故障点在数据场中的势值找出噪声点并踢出,利用故障点在数据场中呈现的自然聚集特性选择初始聚类中心指导FCM聚类.仿真实验的结果表明,改进算法弥补了FCM算法的缺陷,提高了聚类的效率和准确性,在故障诊断过程中有很好的表现.  相似文献   

7.
常彤 《通讯世界》2017,(19):289-290
K-means算法因其简单、易理解、速度快等优点在众多领域得到广泛的应用,然而该算法的K值选取,初始聚类点的选取和对于孤立点的处理等都会影响最终聚类结果.根据k-means算法目前的应用研究现状,针对这些缺点对算法进行改进,最后指出了改进中存在的一些问题,并指出未来的研究方向.  相似文献   

8.
K均值聚类算法是一种常见且有效的基于划分的聚类算法。为解决该聚类算法对初始中心敏感的问题,常用的方法是层次化初始聚类中心。然而,层次初始的聚类算法仍然需要将聚类个数作为输入参数,在高维数据和海量数据中不易应用。基于能够自动确定聚类数目的目的,采用DBI度量,提出一种层次初始的聚类个数自适应的聚类方法(简称DHIKM)。通过UCI数据集和仿真数据上的实验,证明DHIKM可以在采样数据中快速找到合适的聚类个数,实验结果表明该算法在聚类质量与收敛速度上的有效性。  相似文献   

9.
传统K-means算法的初始聚类中心从数据集中随机抽取,聚类结果会随着初始聚类中心的不同而产生波动。针对这一问题,提出一种基于密度的优化初始聚类中心选取算法,通过计算每个数据对象的密度参数和邻域距离,选取k个处于高密度分布的点作为初始聚类中心。在聚类类别数给定的情况下,使用标准的UCI数据库进行对比实验,发现改进后的算法较传统算法有相对较高的准确率和稳定性。  相似文献   

10.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号