首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
对谱聚类图像分割算法进行改进,即引入加速均值算法替换原算法中的k均值算法,得出加速谱聚类的图像分割算法.将改进算法应用于微软剑桥研究院Grab cut数据集中的5幅实验图像,结果显示:在平均区域一致性评价不降低的前提下,改进算法完成分割所花费的平均时间比改进前可缩短58%.  相似文献   

2.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

3.
双聚类算法是为了发现基因表达数据矩阵中局部相似性而提出的新聚类方法。本文根据Cheng和Church的打分理论采用自底向上的策略,首先用粗糙k均值算法生成初始的基因数据块,再对这些数据块添加行和列,生成初始的双聚类。然后,删除初始的双聚类中一致性波动不好的行和列,从而得到最终的双聚类。实验表明,该算法能够高效地生成具有共表达水平的双聚类,更能找到一致波动水平很高的双聚类。  相似文献   

4.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

5.
传统的快速聚类算法大多基于模糊C均值算(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。建立使用分治策略解决聚类问题的算法架构,充分考虑数据本身特性并对传统的FCM算法进行改进,标准数据集的实验结果表明这种基于分治策略的FCM聚类算法较好地提高了算法的聚类准确率,加快了收敛速度。  相似文献   

6.
针对[k]-means算法易受初始中心影响的缺点,提出了基于改进粒子群算法的[k]-means聚类算法[(k]-means cluster algorithm based on Improved PSO,IPK-means),在粒子群算法中加入混沌搜索过程,以增加PSO迭代后期粒子群的多样性,并且在粒子更新过程中,给出了一种动态调整因子公式,使得调整因子与该粒子的适应度值大小相关,即同一迭代中不同粒子也会拥有不同的调整因子。最后将改进的PSO算法应用于[k]-means聚类,为其寻找较好的初始中心,实验结果表明了该算法可取得较好的聚类结果。  相似文献   

7.
归一化处理能够降低奇异数据对k均值聚类算法的影响,减少迭代次数,提高算法的收敛速度。  相似文献   

8.
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。  相似文献   

9.
并行k均值聚类算法的完备性证明与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
对经典k均值算法进行分析,证明如何在减少节点间通信代价的情况下,从局部聚类信息生成完备的全局聚类信息,使聚类质量等价于相应串行算法,并具有较高的执行效率,在此基础上给出可信的基于消息传递接口的并行k均值算法。实验结果表明,该算法是高效的和可行的。  相似文献   

10.
余晓山  吴扬扬 《计算机应用》2014,34(6):1595-1599
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。  相似文献   

11.
12.
《国际计算机数学杂志》2012,89(3-4):121-132
In this paper the divide-and-conquer approach to the two-dimensional closest-pair problem is studied. A new algorithm is proposed by which a closest pair, i.e. a pair of points whose distance δ is smallest among a set of N points, is found in θ(N) expected time when the points are drawn independently from the uniform distribution in a unit square. The worst-case running time of the algorithm is θ(N log2 N). The method is to project the points onto one of the coordinate axes, and to compute an initial guess for the smallest distance δ by considering the [N/2] pairs of successive projected points. The shortest of these pairwise distances is a good approximation for the final δ. It is then used in the subsequent merge phases of the divide-and-conquer algorithm to keep the average work minimal. A modification of the basic algorithm guarantees θ(N) performance in the average case and θ(N log N) performance in the worst case.  相似文献   

13.
K均值算法虽被广泛应用,但其算法性能和算法稳定性严重依赖算法的初始化过程,尤其是初始聚类中心的选取。比较合理的聚类中心应该出现在数据密集的区域,基于这个假设,提出了一种依赖数据局部密度的初始化调优算法。该算法以数据的局部密度函数为依据,并在高密度区域选取初始聚类中心。与同类算法相比,该算法有如下特点:能够自主发现数据集中数据分布的局部密集度;对类别数目较多的数据表现出更好的性能;对离群点和噪声鲁棒;易于实现。  相似文献   

14.
代价敏感属性选择问题的目的是通过权衡测试代价和误分类代价,得到一个具有最小总代价的属性子集。目前,多数代价敏感属性选择方法只考虑误分类代价固定不变的情况,不能较好地解决类分布不均衡等问题。而在大规模数据集上,算法效率不理想也是代价敏感属性选择的主要问题之一。针对这些问题,以总代价最小为目标,设计了一种新的动态误分类代价机制。结合分治思想,根据数据集规模按列自适应拆分各数据集。基于动态误分类代价重新定义最小代价属性选择问题,提出了动态误分类代价下的代价敏感属性选择分治算法。通过实验表明,该算法能在提高效率的同时获得最优误分类代价,从而保证所得属性子集的总代价最小。  相似文献   

15.

DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一. 然而,它时间复杂度过高(O(n2)),无法处理大规模数据. 因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现. 从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术. 根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对. 此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告. 最后,对本领域未来的方向进行了展望.

  相似文献   

16.
基于K-均值聚类和凝聚聚类的离群点查找方法   总被引:1,自引:1,他引:1       下载免费PDF全文
离群点发现是数据挖掘研究的一个重要方面。根据数据流的特点,给出了一种基于K-均值聚类和凝聚聚类的离群点发现方法,先用K-均值聚类对数据流进行处理,生成中间聚类结果,然后用凝聚聚类对这些中间结果进行再次选择,最后找出可能存在的离群点。  相似文献   

17.
提出了一种基于k均值聚类和BP神经网络集成的语音识别方法,该方法以神经网络集成模型为基础,利用k均值聚类算法选择部分有差异性的个体神经网络再进行集成学习,既克服了单个BP网络模型容易局部收敛和不稳定性的缺点,又解决了传统集成方法训练时间长和个体网络差异性不明显的问题。通过对非特定人孤立词的语音识别的实验,证实了该方法的有效性。  相似文献   

18.
于洪  毛传凯 《计算机应用》2016,36(8):2061-2065
应用广泛的k-means算法结果是一种二支决策的结果,即对象要么属于某个类要么不属于这个类,这种决策方式难以适用于一些具有不确定现象的环境,因此提出三支决策聚类方法来反映对象与类之间的关系,即:对象确定属于某类、可能属于某类或确定不属于某类。显然,二支决策是三支决策的一种特例。此外,从类内紧凑性和考虑近邻类间分离性角度出发,定义了分离性指数、聚类结果评估有效性指数,并提出了一种自动三支决策聚类算法。该方法为处理具有不确定信息的基于k-means算法框架的聚类数目自动确定的难题提供了一种新的解决思路。在人工数据集和UCI真实数据集上的初步对比实验结果表明所提出的方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号