共查询到18条相似文献,搜索用时 78 毫秒
1.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。 相似文献
2.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。 相似文献
3.
基于云计算的并行K-means聚类算法研究 总被引:2,自引:0,他引:2
目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。 相似文献
4.
针对分水岭算法过分割现象,提出一种综合分水岭算法、中值过滤算法和归一化割算法的改进算法;该算法首先应用改进型的中值过滤算法对图像进行适当的除噪;然后通过分水岭变换对图像进行了初步分割,最后使用归一化割算法进行图像精度分割;算法集合了分水岭算法、中值过滤算法及归一化割算法的优点,既较好地解决了分水岭算法中过度分割的问题,又降低了归一化割算法的时间复杂度;实验结果表明该算法是一种切实可行的图像分割方法。 相似文献
5.
段桂芹 《计算机与数字工程》2015,(3):379-382
针对K‐means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K‐means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始K‐means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。 相似文献
6.
为了提高高动态图像显示的视觉效果,提出了一种基于局部线性变换的色阶映射算法;针对图像直接线性压缩能力较差的缺点,本文提出一种局部的线性变换模型;由于局部窗的结构,是利用局部窗的中心像素点与窗内的其他像素点的均值,方差的关系构造而成,因此基于局部线性变换的色阶映射算法能够抑制由具有高对比度的图像边缘所引起的鬼影和光晕现象;首先,根据线性变换将图像的色阶映射转换为求解泛函的最优解;其次,通过推导求解出线性变换的参数并将泛函最优化问题转换为求解一个线性方程组问题;最后求解线性方程组,得出视觉效果较好的低动态范围图像;有效避免传统色阶映射出现的光晕和亮度不连续的现象,能够更多的保留高动态图像的细节;最后通过实验结果对比分析,通过信息熵和对比度两个参数可以体现文中算法较好。 相似文献
7.
加速大数据聚类K-means算法的改进 总被引:1,自引:0,他引:1
为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。 相似文献
8.
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性. 相似文献
9.
针对传统聚类算法难以高效进行海量数据聚类分析的问题,提出一种基于MapReduce框架的K-means聚类集成算法。利用K-means算法生成不同聚簇数目的基聚类结果,改进共协关系矩阵,依据数据点对出现次数进行集成,自动得出最终聚类结果。实验结果表明,该算法能够有效地改善聚类质量,具有良好的扩展性,适用于海量数据的聚类分析。 相似文献
10.
针对机械故障监测的需求,开发了振动信号分析系统;采用LabVIEW图形化开发工具,系统实现了振动信号分析流程和基本的信号分析方法,能够对振动信号进行预处理,并从时域、频域和时频域角度对其进行特征提取;完成了基于仿真信号和实测的公开振动数据集的系统功能验证,采用希尔伯特-黄变换法对西储凯斯轴承的一组数据进行测试,结果表明,所开发的振动信号分析系统能够分辨出轴承故障的特征频率,相对误差为0.84%,同时具备参数配置灵活、结果显示直观、扩展性强的优势,为基于振动测试的机械故障监测提供了基础平台。 相似文献
11.
12.
一种新的聚类算法--粒子群聚类算法 总被引:12,自引:0,他引:12
在分析K均值聚类算法存在不足的基础上,该文提出了一种新的聚类算法:基于粒子群的K均值聚类算法。实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度。 相似文献
13.
14.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。 相似文献
15.
基于k-means聚类算法的研究 总被引:4,自引:0,他引:4
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义. 相似文献
16.
随着网络的普遍应用,网络中产生的数据急剧增长,大规模数据处理面临严峻挑战。本文在对AP聚类算法进行研究的基础上,利用MapReduce编程模型思想对AP聚类算法进行改进,设计在云平台Hadoop环境下运行的基于MapReduce的分布式AP聚类算法,并在实验中对不同规模的图数据进行聚类测试,实验结果表明分布式的AP聚类算法具有很好的时间效率和加速比。
相似文献
17.
K-means聚类算法优化方法的研究 总被引:1,自引:0,他引:1
针对K-means算法全局搜索能力的不足,提出基于改进PSO的优化K-means聚类算法(IPSO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分.同时,提出一种基于信息增益比例的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果.仿真实验采用KDD-cup 99的测试数据,实验结果表明本文提出的算法不但能检测到多种已知的网络入侵行为,而且能够检测到许多未知的网络入侵行为,同时保持较高的网络入侵的检测率和较低入侵的误报率. 相似文献