共查询到16条相似文献,搜索用时 93 毫秒
1.
2.
随着大数据技术的成熟,如何提高大规模数据的分析效率成为了目前的热点.为了提高在大规模数据下进行分析的效率,通过MapReduce运行仿射传播聚类算法实现并行化分析,增加精准度,详细论述了实现的过程以及关键技术.实验表明,该方法取得了良好的实验效果,克服了传统方法耗时多、识别率低等问题,是实现在大规模数据中进行分析的实用... 相似文献
3.
一种基于距离调节的聚类算法 总被引:1,自引:1,他引:1
针对k-means算法不适合凹形样本空间的问题,提出了一种基于距离调节的聚类算法.算法中引入了一种调节最短路径距离作为算法的相似度函数,该函数可以使经过高密度数据区域的两点距离缩短,而经过低密度数据区域的两点距离加长,由此来缩小类间样本的相似度,同时加大类间的相似度,以及更好的聚类.实验结果证明,该算法对凹状的聚类样本空间具有很好的聚类效果. 相似文献
4.
提出了一种基于距离相似性K-means的红外图像聚类算法。该算法对通过Isomap算法降维后的空间点,进一步进行聚类;算法中引入了密度因素,通过距离相似性的差异进一步排除孤立点和选取初始聚类中心,使数据内部的紧凑性得到加强。经过实验证明,改进后的方法比原方法更有效,时间复杂度也大幅度降低。 相似文献
5.
6.
随着定位技术的快速发展,基于无线局域网的室内定位成为新的研究热点。本文提出了一种基于近邻传播聚类的概率分布无线局域网(WLAN)室内定位算法。与传统室内定位算法相比,该算法首先引入近邻传播聚类缩小参考点搜索空间,然后利用概率分布定位算法进行精确定位。仿射传播聚类可以有效减少概率分布定位算法的计算量,应用于系统后将有效降低系统复杂度。实验结果表明,本文所提算法具有更好的定位精度,可实现对WLAN室内定位目标的快速、可靠定位。 相似文献
7.
不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering, DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm, DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。 相似文献
8.
9.
聚类的根本在于对数据的划分与集合,数据可通过聚类算法对象的相似性与不同合集中对象的区别性来进行数据记录.近年来,由于数据库的信息量大量增长,在面对大规模数据集时,聚类分析的算法形式已经无法满足高内存,高CPU的时间限制,传统的数据算法正面临着"不高效"的严峻问题.本文旨在根据大规模数据集的背景,进一步分析聚类算法的优缺性,并针对其问题研究聚类新算法的设计方法. 相似文献
10.
提出一种适用于大型数据集的分布式聚类算法。该算法以传统的K-means算法为基础进行合理的改进,使之更适用于分布式环境,并从算法的复杂度分析,将该算法与传统的集中式K-means算法及其他分布式算法进行比较。实验表明,该算法在保持了集中式K-means算法所有必要特性的同时,提高了数据处理速度。 相似文献
11.
针对近邻传播(AP)聚类算法的计算复杂度和准确性,该文提出一种分层组合的半监督近邻传播聚类算法(SAP-SC)。算法引入分层聚类的思想,将一次AP聚类过程等分成若干层聚类,使得处理过程简单、易于实现;每层只关注聚类困难的数据点,并通过构造成对点约束和使用子簇标签映射进行半监督学习;基于组合提升的方法将各层聚类结果加权叠加,从而提升了算法的准确性能。理论分析和实验结果表明:算法在聚类准确性和计算复杂度方面有了较大改进。 相似文献
12.
可变相似性度量的近邻传播聚类 总被引:10,自引:0,他引:10
近邻传播(AP)聚类算法面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理。该文从数据分布特性的表征出发,提出了一种改进的近邻传播聚类算法AP-VSM (Affinity Propagation based on Variable-Similarity Measure)。首先,综合数据的全局与局部分布特性,设计了一种数据可变相似性度量计算方法,该度量可以有效地反映数据实际聚类的分布特性;然后在传统AP算法框架基础上,构造出基于可变相似性度量的近邻传播聚类算法,从而拓展了传统AP算法的数据处理能力。仿真实验验证了新方法性能优于传统AP算法。 相似文献
13.
近邻半监督聚类算法的MATLAB实现 总被引:1,自引:0,他引:1
本文提出了一种用Matlab实现近邻半监督聚类算法的实例,补充进入MATLAB工具箱,并使用该算法对三个UCI数据集进行聚类,并通过F-measure指标验证了该算法的有效性。 相似文献
14.
电离层多层结构特性使得天波雷达(OTHR)与目标之间存在多条信号传播路径,进而可能对单目标产生多路径量测。该文考虑了天波雷达多路径量测聚类问题,其需要同时对多路径量测进行电离层传播路径辨识和聚类。由于天波雷达量测模型假设1个目标通过1种电离层传播路径至多产生1个量测,因此需要考虑多路径聚类约束。该文将相似性传播聚类扩展到多路径约束模型,并提出一种新的多路径相似性传播聚类算法。该算法通过构建多路径量测聚类的概率图模型,将聚类问题转化为概率图模型隐变量的推断问题,采用最大和置信传播算法近似求解聚类变量的最大后验概率。算法优点包括可以自动识别聚类团数目,单次消息传播的时间复杂度为量测个数和传播路径个数乘积的平方。仿真实验分析表明,所提算法较多路径多假设聚类算法具有更好的聚类性能。 相似文献
15.
核匹配追踪算法在生成函数字典的过程中常采用贪婪算法进行全局最优搜索,导致算法学习时间过长。该文针对这一缺陷,提出一种基于近邻传播(Affinity Propagation, AP)聚类与核匹配追踪相结合的分类方法(AP-Kernel Matching Pursuit, AP-KMP),该方法利用聚类算法来优化核匹配追踪算法中的字典划分过程,使用近邻传播聚类将目标数据集划分为若干小型字典空间,随后KMP算法在小型字典空间进行局部搜索,从而缩短学习时间。针对部分UCI数据集和遥感图像数据集,分别采用AP-KMP算法与另4种经典算法进行分类比较实验,结果表明该文算法在时间开销和分类性能上均有一定的优越性。 相似文献
16.