首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVP k-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDP k-means算法进行比较,DVP k-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。  相似文献   

2.
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。  相似文献   

3.
PAM是最早提出的k-medoids算法之一,该算法比较健壮,比k-means算法鲁棒性更强,但是PAM对初始值敏感,易陷入局部收敛。利用PSO算法对PAM进行优化,提出一种基于PSO和PAM的聚类方法,充分利用PAM和PSO两者对于不同问题的优势,来不断地更新PAM的聚类中心。通过建立基于熵的聚类有效性函数,对混合聚类算法的性能进行客观评价。从来自UCI的数据的测试结果表明,这种混合聚类的方法有较高的聚类正确率。  相似文献   

4.
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。  相似文献   

5.
将数据挖掘技术应用于入侵检测中可以提高检测的精度和效率.针对k-means算法对初始聚类中心很敏感,在聚类过程中对数据输入的顺序也有依赖性等特性,本文首先利用遗传算法初始中心点对k-means聚类算法进行了改进,然后使用k-means算法快速收敛获取聚类结果,最后在入侵检测的经典数据集KDD CUP 1999上检验了算法的有效性.实验结果表明,该方法与相关研究对比提高了入侵检测系统的精度和效率.  相似文献   

6.
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.  相似文献   

7.
《计算机工程与科学》2017,(10):1801-1806
聚类分析是数据处理算法中常用的方法,PAM算法自提出以来便成为了最常使用的聚类算法之一。虽然传统PAM算法解决了K-Means算法在聚类过程中对脏数据敏感的问题,但是传统PAM算法存在收敛速度慢、处理大数据集效率不高等问题。针对这些问题,利用蚁群搜索机制来增强PAM算法的全局搜索能力和局部探索能力,并基于MapReduce并行编程框架提出MRACO-PAM算法来实现并行化计算,并进行实验。实验结果表明,基于MapReduce框架的并行MRACO-PAM聚类算法的收敛速度得到了改善,具备处理大规模数据的能力,而且具有良好的可扩展性。  相似文献   

8.
一种改进的k-means算法   总被引:2,自引:0,他引:2  
在聚簇方法中,k-means算法是最著名和最常用的划分法之一.该算法适合对海量数据进行聚类,对球状、凸形分布的数据具有很好的聚类效果.但该算法依赖聚类中心的初始分布、距离计算的复杂性大,这些对聚类结果及效率会产生很大的影响.为了降低对初始聚类中心的依赖和算法的时间开支,提出了一种改进算法,该算法汲取了k-medoids轮换法及优化后的采用三角形三边关系定理的k-means算法的优点.实验表明,该改进算法比原k-means算法具有更好的聚类效果及更高的效率.  相似文献   

9.
基于Web日志挖掘的Web文档聚类   总被引:3,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

10.
聚类技术是数据挖掘中的一个重要方法,PAM(Partitioning Around Medoids)是基于分区的聚类算法的一种,它试图将[n]个数据对象分成[k]个部分。在并行粒子群PSO(Particle Swarm Optimization)算法中,需要划分整个种群为几个相互不重叠的子种群。因此,引入PAM来划分整个种群。通过聚类,相同子种群的粒子相对集中,从而能够较容易地相互学习。这使得有限的时间能够花费在最有效的搜索上,以便提高算法的搜索效率。为了均匀地探测整个解空间,引入均匀设计来产生初始种群,使种群成员均匀地分散在可行解空间中。进化过程中,均匀设计也被引入来替换种群中的较差个体。提出基于PAM和均匀设计的并行粒子群算法,它结合并充分利用了二者的优点。对几个测试问题的实验结果证明,提出的算法比传统的并行粒子群算法具有更高的性能和更好的收敛准确性。  相似文献   

11.
针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于MapReduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进。实验结果表明,基于MapReduce的K_means并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比。  相似文献   

12.
k-means算法在面对大规模数据集时,计算时间将随着数据集的增大而成倍增长。为了提升算法的运算性能,设计了一种基于CUDA(Compute Unified Device Architecture)编程模型的并化行k-means算法,即GS_k-means算法。对k-means算法进行了并行化分析,在距离计算前,运用全局选择判断数据所属聚簇是否改变,减少冗余计算;在距离计算时,采用通用矩阵乘加速,加快计算速度;在簇中心点更新时,将所有数据按照簇标签排序分组,将组内数据简单相加,减少原子内存操作,从而提高整体性能。使用KDDCUP99数据集对改进算法进行实验,结果表明,在保证实验结果的准确性的情况下,改进算法加快了计算速度,与经典的GPUMiner算法相比加速比提升5倍。  相似文献   

13.
为了解决粒子滤波多说话人跟踪过程中粒子易发散导致多目标跟踪精度低的问题,提出了并行粒子滤波和基于GPU的K-均值聚类的多声源定位方法。该方法首先分析了粒子滤波在实现多目标跟踪时,进行数据关联的过程产生较大的计算量,并且出现多个目标时,粒子会逐渐发散。针对计算量大和粒子发散的问题,提出了一种并行粒子滤波和K-均值聚类的方法。实验表明,随着粒子数和目标数的增加,计算量以指数增加,并且粒子发散严重,采用基于GPU的K-均值聚类方法的粒子滤波多说话人跟踪方法,相比传统粒子滤波跟踪方法具有更收敛的粒子集并且跟踪精度较高。  相似文献   

14.
K-means聚类算法的性能依赖于距离度量的选择,k-means算法将欧几里德距离作为最常用的距离度量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相异性。针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。  相似文献   

15.
基于消息传递的并行聚类算法   总被引:2,自引:0,他引:2  
聚类(Clustering)是数据挖掘(Data Ming)中一项很重要的功能,本文提出用并行处理的方法,对k-means(k-平均值)算法进行改进,来说明并行算法可以在一定程度上提高聚类算法的性能.通过试验证明,当数据量较小时并行k-平均值可以很大程度上提高聚类算法的性能,但在数据量较大时效果较差.  相似文献   

16.
并行k均值聚类算法的完备性证明与实现   总被引:1,自引:0,他引:1  
对经典k均值算法进行分析,证明如何在减少节点间通信代价的情况下,从局部聚类信息生成完备的全局聚类信息,使聚类质量等价于相应串行算法,并具有较高的执行效率,在此基础上给出可信的基于消息传递接口的并行k均值算法。实验结果表明,该算法是高效的和可行的。  相似文献   

17.
针对BPNN模型在煤与瓦斯突出预测中存在收敛慢、误差较大等问题,建立了RBFNN模型对煤与瓦斯突出进行预测。采用对样本具有普适性的核k均值聚类算法来确定RBF的中心、梯度下降自适应算法优化网络宽度参数和递推最小二乘法算法调整网络权值。并用国内煤矿的煤与瓦斯突出实测数据对该混合算法及模型进行了验证。实验结果表明,本研究的方法在预测精度和收敛速度上均优于BPNN和基于经典k均值聚类算法的RBFNN,具有良好的实用性和有效性。  相似文献   

18.
基于去降Mallat离散小波变换的彩色图像分割   总被引:5,自引:0,他引:5  
该文针对Mallat快速离散小波变换,提出了一种利用变换平移不变性的离散小波变换的彩色图像分割方法。首先对原始图像进行平移不变性的小波变换,然后提取颜色和纹理特征,并采用k均值算法进行分割。实验表明该方法对纹理图像和彩色自然图像都具有较好的分割效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号