首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

2.
基于MPI的并行PSO混合K均值聚类算法   总被引:2,自引:0,他引:2  
传统的串行聚类算法在对海量数据进行聚类时性能往往不尽如人意,为了适应海量数据聚类分析的性能要求,针对传统聚类算法的不足,提出一种基于消息传递接口(MPI)集群的并行PSO混合K均值聚类算法。首先将改进的粒子群与K均值结合,提高该算法的全局搜索能力,然后利用该算法提出一种新的并行聚类策略,并将该算法与K均值聚类算法、粒子群优化(PSO)聚类算法进行比较。实验结果表明,该算法不仅具有较好的全局收敛性,而且具有较高的加速比。  相似文献   

3.
一种改进的多视图聚类集成算法   总被引:1,自引:0,他引:1  
邓强  杨燕  王浩 《计算机科学》2017,44(1):65-70
近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。  相似文献   

4.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

5.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

6.
针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDk-means (Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统K-means算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能.  相似文献   

7.
基于不确定数据进行数据挖掘和知识发现的研究由于更加符合客观实际而逐渐成为近年来研究的热点.而在K-means算法聚类的过程中,样本空间各维度对聚类效果贡献的价值不同也成为现实应用中不可回避的问题.为了得到更加客观、真实的聚类结果,在经典K-means算法的基础上引入了属性的权值并重新构造了针对不确定数据集的聚类算法,并通过实验证明了该算法的有效性.  相似文献   

8.
研究粒子群K均值聚类算法问题,针对传统粒子群K均值算法容易陷入局部最优解,出现早熟收敛的缺点,提出一种基于云模型改进的粒子群K均值聚类算法.使用X条件云发生器自适应地调整粒子个体惯性权重的方法.保证惯性权重会逐渐减小而又不失随饥性。根据个体适应度的优劣将粒子群分为三个子群,在每次迭代时都保证仍有一个子群的粒子在进行全局搜索,避免算法陷入局部最优和早熟收敛。在典型数据集上的仿真结果表明,改进算法相比其他聚类算法得到较好的聚类准确率和较快的收敛速度,是一种行之有效的方法。  相似文献   

9.
李庆华  苏珊 《计算机工程》2005,31(5):151-152,161
由于入侵检测使用的数据集十分庞大,现有的串行聚类算法很难在合理的时间内得到结果。文章提出了一种应用于入侵检测的并行K-均值算法,给出了其加速比估算公式,实验证明了算法的正确性和有效性。  相似文献   

10.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

11.
K-means算法是数据挖掘领域研究、应用都非常广泛的一种聚类算法,其各种衍生算法很多,其中包括近年出现的以点对称距离为测度的K-means聚类算法。在点对称距离聚类算法的基础上提出一种新的聚类算法,根据对对称性的分析,为对称性的描述增加方向约束,提高对称距离的描述准确性,以此来提高聚类的准确性。同时,针对对称点成对出现的特点,调整了聚类过程中的收敛策略,以对称点对连线中点计算聚类中心,改善了基于对称距离的聚类算法收敛性能。通过数值仿真比较了所提算法与原有算法的优劣,结果显示该算法在计算复杂度不变的条件下获得了更准确的结果,聚类结果更接近数据的真实分类。  相似文献   

12.
廖纪勇  吴晟  刘爱莲 《控制与决策》2021,36(12):3083-3090
选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能.  相似文献   

13.
通过引入上、下近似的思想,粗糙K-means已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊K-means、模糊粗糙K-means等作为粗糙K-means的衍生算法,进一步对聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙K-means聚类算法,并通过实例计算分析验证了算法的有效性。  相似文献   

14.
谱聚类算法对输入数据顺序的敏感性*   总被引:1,自引:1,他引:1  
结合矩阵分析知识,还原了实施谱聚类算法过程中的矩阵表示.发现了不同数据输入顺序使得相应的Affinity矩阵及Laplacian矩阵是相似的.这样,Laplacian矩阵的特征向量生成的矩阵Y也是相似的;而以Y的行向量作为输入数据的K-平均算法依赖于初始的k个对象的选择.由此给出了导致谱聚类算法对数据输入顺序敏感的原因.  相似文献   

15.
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。  相似文献   

16.
传统的数据聚类处理主要采用基于聚类中心的方式,但其存在一些限制,例如需要预先确定聚类中心的数量,并对数据的分布形态有一定的要求。针对这一问题,本论文选择基于密度聚类算法作为解决方案,重点研究了电力设备位置信息的聚类问题。在介绍密度聚类原理和常用算法的基础上,分析了电力设备位置信息的特点和处理方法,介绍了OPTICS、HDBSCAN和DBSCAN三种密度聚类算法的实现步骤,并与传统的K-mean聚类算法进行比较,通过实验设计和结果分析,验证了密度聚类方法的有效性和适用性。最后,通过应用案例分析,探讨了这些方法在电力系统分析中的应用实例和价值。研究结果表明,基于密度聚类算法的电力设备位置信息聚类方法可以有效地帮助电力系统实现数据的快速分析,具有重要的理论和应用价值。  相似文献   

17.
聚类算法在电信客户细分中的应用研究   总被引:2,自引:0,他引:2  
陈治平  胡宇舟  顾学道 《计算机应用》2007,27(10):2566-2569
结合聚类算法的分析,提出了一种解决电信客户细分的应用模型,该模型在实际中得到了较好的应用并为电信服务产品的策划设计提供了依据。同时,通过引入指标区分度的定义,给出了一种聚类方法应用效果评估的方法。该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,得出K-Means方法在电信客户市场细分中的应用优越性。  相似文献   

18.
QR-树处理海量空间数据时,其深度和R-树内目录矩形的重叠面积会变大,导致查询效率降低。针对该问题采用K-means算法对索引对象进行聚类分析,构造新的聚类中心使其能处理具有多种形体的索引对象,并在QR-树中引入超结点存储聚类结果。提出一种QCR-树空间索引结构来提高查询效率,给出QCR-树的插入、删除和查询算法。实验结果表明QCR-树的查询性能优于QR-树,适用于海量数据。  相似文献   

19.
Clustering web document is an important procedure in many web information retrieval systems. As the size of the Internet grows rapidly and the amount of information requests increases exponentially, the use of parallel computing techniques in large scale web document retrieval is unavoidable. We propose a parallel hybrid web document clustering algorithm, which combines the Principal Direction Divisive Partitioning (PDDP) algorithm with the K-means algorithm. Computational experiments were conducted to test the performance of the hybrid algorithm using three real life web document datasets, and the results were compared with that of the parallel PDDP algorithm and the parallel K-means algorithm. The experiments show that the quality of the clustering solutions obtained from the hybrid algorithm is better than that from the parallel PDDP or the parallel K-means. The parallel run time of the hybrid algorithm is similar to and sometimes less than that of the widely used K-means algorithm.  相似文献   

20.
This paper aims to present several clustering methods based on rank distance. Rank distance has applications in many different fields such as computational linguistics, biology and computer science. The K-means algorithm represents each cluster by a single mean vector. The mean vector is computed with respect to a distance measure. Two K-means algorithms based on rank distance are described in this paper. Hierarchical clustering builds models based on distance connectivity. This paper describes two hierarchical clustering techniques that use rank distance. Experiments using mitochondrial DNA sequences extracted from several mammals are performed to compare the results of the clustering methods. Results demonstrate the clustering performance and the utility of the proposed algorithms.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号