首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
《计算机工程》2018,(4):35-40
针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。  相似文献   

2.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。  相似文献   

3.
基于模糊最近邻的高维数据聚类   总被引:3,自引:0,他引:3  
提出一种基于模糊最近邻的聚类算法(简称FNNC算法).FNNC算法通过加权共享最近邻图来形成簇,而且仅仅使用对象图中一些有用的连接.本文通过实验验证了FNNC算法在高维数据聚类中的有效性.  相似文献   

4.
动态最近邻聚类算法的优化研究   总被引:4,自引:0,他引:4  
针对最近邻聚类算法对聚类半径敏感、不易获得最优解的问题,提出了基于贝叶斯信息测度BIC(Bayesianinformationcriterion)的优化方法。通过DBSCAN算法对初始数据集进行预处理,去除噪声数据。在参数空间内逐步调整聚类半径,利用最近邻聚类算法对数据集进行聚类,并计算每次聚类结果的贝叶斯信息测度值。比较各次聚类结果的贝叶斯信息测度值,最大贝叶斯信息测度值对应的聚类即为最优聚类结果。实验结果表明,优化的最近邻聚类算法很好地解决了合适的聚类半径选取问题。  相似文献   

5.
利用客户交易数据聚类分析,可得到更优异的客户细分效果,有助于企业更详实地了解消费者,制定精准的营销策略.PurTreeClust是一种新型的客户交易数据聚类算法,定义了一种新型的度量方式PurTree距离,可以很好地分析处理具有层次树结构的交易数据,但未考虑近邻点的影响,仅将交易树分配到距离最近的聚类中心所属类簇,容易...  相似文献   

6.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

7.
基于遗传进化的最近邻聚类算法及其应用   总被引:4,自引:0,他引:4       下载免费PDF全文
提出了基于遗传进化的最近邻聚类算法,该算法结合了遗传算法(GA)与最近邻聚类算法(NN)。对要进行分类的样本和特征量进行优化选取,去除位于类交界的模糊样本,并对样本分类有效的特征量进行放大,对不利于样本分类的特征量进行抑制,从而提高了样本分类的精度,将该算法应用于抽水蓄能发电机组的工况分类,大大提高了机组工况的识别效果,验证了基于遗传算法的最近邻聚类算法的有效性。  相似文献   

8.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性.针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN).通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度...  相似文献   

9.
一种改进的最近邻聚类学习算法   总被引:3,自引:0,他引:3  
提出了一种自适应模糊逻辑系统(AFLS)的改进自适应学习算法,该算法将无导师学习算法与基于梯度信息的寻优学习算法相结和,并且在确定聚类过程中同时考虑样本输入与输出对聚类的影响。  相似文献   

10.
基于最近邻原则的半监督聚类算法   总被引:1,自引:0,他引:1  
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。  相似文献   

11.
一种增量式模糊聚类算法   总被引:5,自引:2,他引:5  
随着数据库中数据的迅速增长,新增数据对聚类结果有很大影响,而重新聚类势必严重浪费计算资源。本文提出了一种增量式的模糊聚类算法,合理地解决了新增数据对象的聚类及类属问题,并应用实例说明了新老算法具有同样的可靠性,但新算法大大提高了聚类分析与知识维护的效率。  相似文献   

12.
基于消息传递的并行聚类算法   总被引:2,自引:0,他引:2  
聚类(Clustering)是数据挖掘(Data Ming)中一项很重要的功能,本文提出用并行处理的方法,对k-means(k-平均值)算法进行改进,来说明并行算法可以在一定程度上提高聚类算法的性能.通过试验证明,当数据量较小时并行k-平均值可以很大程度上提高聚类算法的性能,但在数据量较大时效果较差.  相似文献   

13.
增量式K-Medoids聚类算法   总被引:3,自引:0,他引:3  
高小梅  冯志  冯兴杰 《计算机工程》2005,31(Z1):181-183
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。  相似文献   

14.
关于数据挖掘中聚类分析算法的比较   总被引:3,自引:0,他引:3  
聚类分析是数据挖掘领域中一个非常活跃的研究课题,应用于各个领域的聚类算法非常多.本文介绍了衡量聚类算法性能的几个衡量指标,对聚类分析进行了分类,列举了每个类型的聚类分析的典型算法,并就其性能做了比较,以便于人们更容易、更快速地找到一种适用于特定问题的聚类算法.  相似文献   

15.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。  相似文献   

16.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

17.
数据挖掘中的聚类算法综述   总被引:30,自引:0,他引:30  
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。  相似文献   

18.
聚类后的关联规则快速更新算法研究   总被引:1,自引:0,他引:1  
关联规则和聚类分析是数据挖掘中重要的研究课题。通过对关联规则挖掘算法Apriori算法进行分析与研究,指出了其在实用中存在的两个主要问题。鉴于此,在分析聚类分析和关联规则两种挖掘算法的基础上,讨论了将这两种独立的挖掘方法集成起来的联合挖掘,使其可以有效地压缩数据规模。给出了聚类后的关联规则快速更新算法描述。实验结果表明,算法性能优良,提高了数据挖掘执行效率。  相似文献   

19.
本文分析了基于关联规则的Apriori算法及其存在的缺陷,提出了一种将聚类分析和关联规则相结合的联合数据挖掘算法。在大项集数量相等时,联合挖掘算法明显优于Apriori算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号