首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
为了进一步提升ESSC聚类融合性能,采用实数值链接分析(real valued link analysis)计算聚类融合中模糊数据类的相似性。根据模糊决策及其相似性定义优化的融合信息,从而达到改进聚类性能的目的。实验选用了两个仿真数据库和五个UCI数据库。实验结果表明,基于实数值链接分析的ESSC聚类融合算法(RLA-ESSCE)的性能优于K-means聚类算法(KMC)、ESSC、ESSCE。  相似文献   

2.
提出基于随机初始化、参数扰动和特征子集映射的多扰动的局部自适应软子空间聚类(LAC)融合算法(MLACE)。MLACE具有以下特点:(i)多扰动融合:从初始化、参数和特征子集等不同侧面,探测数据内部结构,使之相互融合,从而达到改善聚类正确性的目的;(ii)融合信息提升:根据LAC算法输出的子空间权重矩阵,定义数据属于每一类的概率,形成提升的融合信息;(iii)融合一致性函数改进:融合信息的形式由0/1二值信息转换成[0,1]实值信息,因此,一致性函数采用了性能较优的实数值融合算法Fast global K-means来进一步改善融合正确性。实验选取2个仿真数据库和5个UCI数据库测试MLACE的聚类正确性,实验结果表明,MLACE聚类正确性优于K-means、LAC、基于参数扰动LAC融合算法(P-MLACE)。  相似文献   

3.
K-means聚类算法可以实现对指纹库的软划分,提高定位系统的查询效率和定位精度。由于K-means算法聚类中心选择和聚类数设定的随机性,使其稳定性较差,影响定位系统的性能,在此提出采用融合聚类的方式对K-means算法进行优化。采用基于密度峰值的聚类算法得到指纹库中每一个指纹点的局部密度和局部距离,然后计算综合决策量γ;选取跳跃点前的前k个点作为K-means算法的初始聚类中心,同时确定最佳聚类数k。试验结果表明,融合聚类算法相较于传统K-means算法定位误差在1.5 m内的概率提高了约9%,定位系统的定位精度得到明显提高。  相似文献   

4.
针对无监督聚类缺少数据分类等先验信息、基聚类的准确性受聚类算法影响以及一般聚类融合算法空间复杂度高的问题,提出一种基于改进遗传算法的聚类融合算法(CEIGA);同时针对传统聚类融合算法已经不能满足大规模数据处理对于时间的要求的问题,提出一种云计算下使用Hadoop平台的基于改进遗传算法的并行聚类融合算法(PCEIGA)。首先,基聚类生成机制产生的基聚类划分在完成簇标签转化后进行基因编码作为遗传算法的初始种群。其次,通过改进遗传算法的选择算子,保证基聚类的多样性;再根据改进的选择算子对染色体进行交叉和变异操作并使用精英策略得到下一代种群,保证基聚类的准确性。如此循环,使聚类融合最终结果达到全局最优,提高算法准确度。通过设计两个MapReduce过程并加入Combine过程减少节点通信,提高算法运行效率。最后,在UCI数据集上比较了CEIGA、PCEIGA和四个先进的聚类融合算法。实验结果表明,与先进的聚类融合算法相比,CEIGA性能最好;而PCEIGA能在不影响聚类结果准确度的前提下明显降低算法运行时间,提高算法效率。  相似文献   

5.
针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛速度。在UCI标准数据集上,ACS-K-means算法可得到比K-means、基于遗传算法的K-means(GA-K-means)、基于布谷鸟搜索的K-means(CS-K-means)和基于粒子群优化的K-means(PSO-K-means)算法更优的聚类质量和更高的收敛速度。将ACS-K-means聚类算法应用到南宁市青秀区“城管通”系统的城管案件热图的开发中,在地图上对案件地理坐标进行聚类并显示,应用结果表明,聚类效果良好,算法收敛速度快。  相似文献   

6.
甘舰文  陈艳  周芃  杜亮 《计算机应用》2023,(9):2665-2672
现有的大部分关于聚类集成的研究主要关注有效的集成算法的设计。为解决由于基聚类器的质量高低不一、低质量的基聚类器对聚类集成性能产生影响的问题,从数据发掘的角度出发,以基聚类器为基础挖掘数据的内在联系,提出一种高阶信息融合算法——基于高阶一致性学习的聚类集成(HCLCE)算法,从不同的维度表示数据之间的联系。首先,将每种高阶信息融合成一个新的结构化的一致性矩阵;然后,再对得到的多个一致性矩阵进行融合;最后,将多种信息融合为一个一致性的结果。实验结果表明,与次优的LWEA(Locally Weighted Evidence Accumulation)算法相比,HCLCE算法的聚类准确率平均提升了7.22%,归一化互信息(NMI)平均提升了9.19%。可见,HCLCE能得到比聚类集成算法和单独使用一种信息更好的聚类结果。  相似文献   

7.
王巧玲  乔非  蒋友好 《计算机应用》2019,39(9):2586-2590
针对传统K均值聚类(K-means)算法随机选择初始中心及K值导致的聚类结果不确定且精度不高问题,提出了一种基于聚合距离的改进K-means算法。首先,基于聚合距离参数筛选出优质的初始聚类中心,并将其作用于K-means算法。然后,引入戴维森堡丁指数(DBI)作为算法的准则函数,循环更新聚类直到准则函数收敛,最后完成聚类。改进算法提供了优质的初始聚类中心及K值,避免了聚类结果的随机性。二维数值型仿真数据的聚类结果表明,改进算法在数据样本数达到10000时仍能保持较好的聚类效果。针对Iris和Seg这两个UCI标准数据集的调整兰德系数,改进算法比传统算法性能分别提高了83.7%和71.0%,最终验证了改进算法比传统算法聚类结果的准确性更高。  相似文献   

8.
陈俊芬  张明  何强 《计算机科学》2018,45(Z11):474-479
基于图论理论的NJW谱聚类算法的核心思想是将数据点映射到特征空间后再利用K-means算法进行聚类,从而得到原始数据的聚类结果。NJW算法是K-means算法的推广,并且在任意形状的数据上都具有较好的聚类效果,从而有着广泛的应用。但是,类数C和高斯核函数中的尺度参数σ较大程度地影响着NJW的聚类性能;另外,K-means对随机初始值的敏感性也影响着NJW的聚类结果。为此,一种基于启发式确定类数的谱聚类算法(记为DP-NJW)被提出。该算法先根据数据的密度分布确定类中心点和类数,这些类中心点作为特征空间中K-means聚类的初始类中心,然后用NJW进行聚类。文中通过实验将DP-NJW算法和经典聚类算法在7个公共数据集上进行测试和对比,其中DP-NJW算法在5个数据集上的聚类精度高于NJW的平均聚类精度,在另2个数据集上二者持平。对比DPC算法,所提算法在5个数据集上也有不俗的聚类精度,而且DP-NJW的计算消耗较小,在较大的数据集aggregation上表现更为突出。实验结果表明,文中所提的DP-NJW算法更具优势。  相似文献   

9.
K-means算法的初始聚类中心是随机选取的,不同的初始中心输入会得出不同的聚类结果。针对K-means算法存在的问题,提出一种融合K-means算法与聚类的快速搜索和发现密度峰算法的聚类算法(K-CBFSAFODP)。该算法是这样考虑的:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点都有相对较大的距离,以此来刻画聚类中心;再运用K-means算法进行迭代聚类,弥补了K-means聚类中心随机选取导致容易陷入局部最优的缺点;并且引入了熵值法用来计算距离,从而实现优化聚类。在UCI数据集和人工模拟数据集上的实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定,同时也有较快的收敛速度,证实了该融合算法的可行性。  相似文献   

10.
孙秀娟  刘希玉 《计算机应用》2008,28(12):3244-3247
在K-means算法中,聚类数k是影响聚类质量的关键因素之一。目前,已经提出了许多确定最佳k值的聚类有效性方法,但这些方法都不能很好地处理两种数据集:类(簇)密度不同的数据集和类间距比较小的数据集(含有合并簇的数据集)。为此,提出了一种新的聚类有效性函数,该函数定义为数据特征轴总长度的平方与最小类间距的比值,最佳聚类数为这个比值达到最小时对应的k值。同时,为减小K-means算法对噪声和孤立点数据的敏感性,使用了基于加权的改进K-平均的方法计算类中心。实验证明,与其他算法相比,基于新聚类有效性函数的K-wmeans算法不仅降低了噪声和孤立点数据对聚类结果的影响,而且能有效地处理上面提到的两种数据集,明显提高了数据聚类质量。  相似文献   

11.
对于具有多特征的复杂数据,使用子数据集作为聚类成员的输入并使用加权投票的聚类集成方法可以权衡不同聚类成员的质量,提高聚类的准确性和稳定性。针对子数据集的选择及权重的计算方式,提出了最小相关特征的子数据集选取方法,并基于特征关系分析比较了五种聚类成员的权重计算方法。实验结果表明,使用最小相关特征法选择每个聚类成员的输入数据,相比随机抽样法可提高聚类集成的准确率。基于五种权重计算方法的聚类集成准确率都比单聚类高,且时间消耗有明显差异。  相似文献   

12.
为了提高分类器集成性能,提出了一种基于聚类算法与排序修剪结合的分类器集成方法。首先将混淆矩阵作为量化基分类器间差异度的工具,通过聚类将分类器划分为若干子集;然后提出一种排序修剪算法,以距离聚类中心最近的分类器为起点,根据分类器的距离对差异度矩阵动态加权,以加权差异度作为排序标准对子集中的分类器进行按比例修剪;最后使用投票法对选出的基分类器进行集成。同时与多种集成方法在UCI数据库中的10组数据集上进行对比与分析,实验结果表明基于聚类与排序修剪的分类器选择方法有效提升了集成系统的分类能力。  相似文献   

13.
Conventional clustering ensemble algorithms employ a set of primary results; each result includes a set of clusters which are emerged from data. Given a large number of available clusters, one is faced with the following questions: (a) can we obtain the same quality of results with a smaller number of clusters instead of full ensemble? (b) If so, which subset of clusters is more efficient to be used in the ensemble? In this paper, these two questions are going to be answered. We explore a clustering ensemble approach combined with a cluster stability criterion as well as a dataset simplicity criterion to discover the finest subset of base clusters for each kind of datasets. Also, a novel method is proposed in order to accumulate the selected clusters and to extract final partitioning. Although it is expected that by reducing the size of ensemble the performance decreases, our experimental results show that our selecting mechanism generally lead to superior results.  相似文献   

14.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

15.
基于谱聚类的聚类集成算法   总被引:6,自引:7,他引:6  
周林  平西建  徐森  张涛 《自动化学报》2012,38(8):1335-1342
谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集成算法.该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员; 然后,采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息;最后,对相似度矩阵使用谱聚类算法得到最终的集成结果. 为了使算法能扩展到大规模应用,利用Nystrm采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度. 本文算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题.实验结果表明:较之其他常见的聚类集成算法,本文算法更优越、更有效,能较好地解决数据聚类、图像分割等问题.  相似文献   

16.
一种改进的多视图聚类集成算法   总被引:1,自引:0,他引:1  
邓强  杨燕  王浩 《计算机科学》2017,44(1):65-70
近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。  相似文献   

17.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

18.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

19.
Cluster ensemble first generates a large library of different clustering solutions and then combines them into a more accurate consensus clustering. It is commonly accepted that for cluster ensemble to work well the member partitions should be different from each other, and meanwhile the quality of each partition should remain at an acceptable level. Many different strategies have been used to generate different base partitions for cluster ensemble. Similar to ensemble classification, many studies have been focusing on generating different partitions of the original dataset, i.e., clustering on different subsets (e.g., obtained using random sampling) or clustering in different feature spaces (e.g., obtained using random projection). However, little attention has been paid to the diversity and quality of the partitions generated using these two approaches. In this paper, we propose a novel cluster generation method based on random sampling, which uses the nearest neighbor method to fill the category information of the missing samples (abbreviated as RS-NN). We evaluate its performance in comparison with k-means ensemble, a typical random projection method (Random Feature Subset, abbreviated as FS), and another random sampling method (Random Sampling based on Nearest Centroid, abbreviated as RS-NC). Experimental results indicate that the FS method always generates more diverse partitions while RS-NC method generates high-quality partitions. Our proposed method, RS-NN, generates base partitions with a good balance between the quality and the diversity and achieves significant improvement over alternative methods. Furthermore, to introduce more diversity, we propose a dual random sampling method which combines RS-NN and FS methods. The proposed method can achieve higher diversity with good quality on most datasets.  相似文献   

20.
基于先验信息和谱分析的聚类融合算法   总被引:1,自引:0,他引:1  
在聚类过程中利用先验信息能显著提高聚类算法的性能,但已存在的聚类融合算法很少考虑到数据集的先验信息。基于先验信息和谱分析,提出一种聚类融合算法,将成对限制信息引入到谱聚类算法中,用受限的谱聚类算法产生聚类成员,再采用基于互联合矩阵的集成方法生成最后的聚类结果。实验结果表明,利用先验信息能有效提高聚类的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号