首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 175 毫秒
1.
现有的多视图聚类算法往往缺乏对各视图可靠度的评估和对视图进行加权的能力,而一些具备视图加权的多视图聚类算法则通常依赖于特定目标函数的迭代优化,其目标函数的适用性及部分敏感超参数调优的合理性均对实际应用有显著影响。针对这些问题,提出一种基于视图互信息加权的多视图集成聚类(MEC-VMIW)算法,主要过程可分为两个阶段,即视图互加权阶段与多视图集成聚类阶段。在视图互信息加权阶段,对数据集进行多次随机降采样,以降低评估加权过程的问题规模,进而构建多视图降采样聚类集合,根据不同视图的聚类结果之间的多轮互评得到视图可靠度评估,并据此对视图进行加权;在多视图集成聚类阶段,对各个视图数据构建基聚类集合,并将多个基聚类集合加权建模至二部图结构,利用高效二部图分割算法得到最终多视图聚类结果。在若干个多视图数据集上的实验结果验证了所提出的多视图集成聚类算法的鲁棒聚类性能。  相似文献   

2.
分布式环境中聚类问题算法研究综述   总被引:1,自引:0,他引:1  
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。  相似文献   

3.
针对传统聚类算法无法处理大数据中多视图高维数据问题,提出一种基于混沌粒子群优化算法的智能加权K均值聚类算法。在聚类模型中引入聚类之间的耦合程度以扩大聚类的相似性。为了消除初始聚类中心的敏感性,利用混沌粒子群优化算法通过全局搜索得到最优初始聚类中心、视图权重和特征权重。引入一种精确摄动策略提高混沌粒子群优化算法的寻优性能。通过在Apache Spark和Single Node两个平台上的实验验证了该方法在视图多、维数高的复杂数据集条件下具有较好的聚类性能。  相似文献   

4.
多视图子空间聚类是一种从子空间中学习所有视图共享的统一表示, 挖掘数据潜在聚类结构的方法. 作为一种处理高维数据的聚类方法, 子空间聚类是多视图聚类领域的研究热点之一. 多视图低秩稀疏子空间聚类是一种结合了低秩表示和稀疏约束的子空间聚类方法. 该算法在构造亲和矩阵过程中, 利用低秩稀疏约束同时捕捉了数据的全局结构和局部结构, 优化了子空间聚类的性能. 三支决策是一种基于粗糙集模型的决策思想, 常被应用于聚类算法来反映聚类过程中对象与类簇之间的不确定性关系. 本文基于三支决策的思想, 设计了一种投票制度作为决策依据, 将其与多视图稀疏子空间聚类组成一个统一框架, 从而形成一种新的算法. 在多个人工数据集和真实数据集上的实验表明, 该算法可提高多视图聚类的准确性.  相似文献   

5.
一种基于局部密度的分布式聚类挖掘算法   总被引:4,自引:1,他引:3  
倪巍伟  陈耿  吴英杰  孙志挥 《软件学报》2008,19(9):2339-2348
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的.  相似文献   

6.
李丽亚  闫宏印 《计算机仿真》2021,38(8):314-317,429
在如今的大数据时代,视图数据越来越多,由于这些数据表现出明显的多样性和差异性,使得多视图数据聚类成为了大数据的研究重点问题之一.针对多视图数据聚类问题,提出了一种基于改进K-means加权自适应多视图聚类算法.首先,提出加权自适应多视图聚类算法,降低视图同维度变换的复杂性.然后考虑到数据的误差性和离群点问题,对数据条件进行优化处理,把Frobenius范数作为条件进行改进,起到对多视图数据加权的作用.再结合自由度问题,找到多视图数据的最优解,降低目标函数自由度.最后根据K-means优化理论,通过权重系数减少数据对多视图聚类的影响,确定多视图不同簇的聚类中心,从而完成对所有视图数据的优化.基于MATLAB仿真平台,分别对5个数据集采用4种性能评价指标进行仿真验证.实验结果表明,所提出的算法大大减少了运行时间,而且具有较好的聚类性能.  相似文献   

7.
挖掘多视图一致性是提升多视图聚类性能的关键,为更好地从多视图数据中学习一致性表示,提出一种新的多视图聚类算法OMTSC。OMTSC算法同时学习每个视图的聚类分配矩阵和特征嵌入,并将聚类分配矩阵分解为共享正交基矩阵和聚类编码矩阵。正交基矩阵可捕获并储存多视图一致性信息形成潜在聚类中心,经过加权融合的多视图聚类编码矩阵可更好地平衡不同视图的质量差异。引入基于二部图的协同聚类,实现正交基、聚类编码和特征嵌入3个矩阵的知识相互迁移,以提升多视图数据一致性和多样性,并利用特征嵌入的多样性最大化多视图一致性学习最优的潜在聚类中心,从而提高多视图聚类的性能。此外,基于群稀疏约束的特征嵌入可有效消除多视图数据中的噪声,提升算法的鲁棒性。在WikipediaArticles、COIL20和ORL数据集上的实验结果表明,与SC-Best、Co-Reg等先进的多视图聚类算法相比,OMTSC算法在ACC、NMI、ARI 3个评价指标上整体取得最优值,其中在COIL20和ORL数据集中的NMI评价指标均高于0.9。  相似文献   

8.
针对多视图深度子空间聚类网络(Multi-view Deep Subspace Clustering Networks, MvDSCN)算法具有的没有充分利用多视图互补信息、进行一次聚类直接得到聚类结果,以及只考虑数据级信息融合而降低了聚类性能等缺点,提出两级联合融合的多视图子空间聚类改进算法(TJ-MvDSCN)。不仅关注多视图共性信息,还关注多视图互补信息;增加分配级别的多视图信息融合,与已有的数据级信息融合形成两级融合结构;增加聚类损失,基于迭代优化策略构建一个可以联合学习特征表示和聚类分配的多视图聚类框架。经实验验证,该算法性能优于现有算法。  相似文献   

9.
针对现有的单视图数据竞争聚类算法无法高效处理多视图数据的问题,提出了基于视图相关因子的多视图数据竞争聚类算法。首先,为了描述不同视图之间的相关性定义了一种视图相关性因子;然后,将视图相关因子与谱方法关于拉普拉斯矩阵的目标函数最大化问题结合,建立一个联合目标函数,使得不同视图之间的信息相互影响,以充分利用多视图的信息。通过解决联合目标函数的优化问题,得到每个视图的优化嵌入矩阵;最后,将得到的优化嵌入矩阵用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法具有更高的聚类性能。  相似文献   

10.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

11.
Multi-view clustering has become an important extension of ensemble clustering. In multi-view clustering, we apply clustering algorithms on different views of the data to obtain different cluster labels for the same set of objects. These results are then combined in such a manner that the final clustering gives better result than individual clustering of each multi-view data. Multi view clustering can be applied at various stages of the clustering paradigm. This paper proposes a novel multi-view clustering algorithm that combines different ensemble techniques. Our approach is based on computing different similarity matrices on the individual datasets and aggregates these to form a combined similarity matrix, which is then used to obtain the final clustering. We tested our approach on several datasets and perform a comparison with other state-of-the-art algorithms. Our results show that the proposed algorithm outperforms several other methods in terms of accuracy while maintaining the overall complexity of the individual approaches.  相似文献   

12.
曹卫东  蔡浩天 《计算机应用研究》2020,37(10):2937-2940,2975
为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering),通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分解(NMF)对损失函数进行重构,使不同视图共享相同的聚类指示矩阵从而实现多视图信息互补,完成大规模多视图数据的聚类。实验结果表明,在大规模多视图数据集上,该算法比其他多视图聚类算法资源消耗更小,并且能够进行更为准确的聚类。  相似文献   

13.
针对无监督聚类缺少数据分类等先验信息、基聚类的准确性受聚类算法影响以及一般聚类融合算法空间复杂度高的问题,提出一种基于改进遗传算法的聚类融合算法(CEIGA);同时针对传统聚类融合算法已经不能满足大规模数据处理对于时间的要求的问题,提出一种云计算下使用Hadoop平台的基于改进遗传算法的并行聚类融合算法(PCEIGA)。首先,基聚类生成机制产生的基聚类划分在完成簇标签转化后进行基因编码作为遗传算法的初始种群。其次,通过改进遗传算法的选择算子,保证基聚类的多样性;再根据改进的选择算子对染色体进行交叉和变异操作并使用精英策略得到下一代种群,保证基聚类的准确性。如此循环,使聚类融合最终结果达到全局最优,提高算法准确度。通过设计两个MapReduce过程并加入Combine过程减少节点通信,提高算法运行效率。最后,在UCI数据集上比较了CEIGA、PCEIGA和四个先进的聚类融合算法。实验结果表明,与先进的聚类融合算法相比,CEIGA性能最好;而PCEIGA能在不影响聚类结果准确度的前提下明显降低算法运行时间,提高算法效率。  相似文献   

14.
贺娜  马盈仓 《计算机工程》2022,48(7):114-121+150
现有多视图模糊C均值聚类(FCM)算法通常将一个多视图分解为多个单视图进行数据处理,导致视图数据聚类精度降低,从而影响全局数据划分结果。为实现高维数据和多视图数据的高效聚类,提出一种基于KL信息的多视图自加权模糊聚类算法。将多个视图信息及其权重进行拟合融入标准FCM算法,求解多个隶属度矩阵和质心矩阵。在此基础上,通过附加KL信息作为模糊正则项进一步修正共识隶属度矩阵并保持权重分布的平滑性,其中KL信息是视图隶属度与其共识隶属度的比值,最小化KL信息会使每个视图的隶属度偏向于共识隶属度以得到更好的聚类结果。实验结果表明,该算法相比于传统聚类算法具有更好的聚类效果和更快的收敛速度,尤其在3-Sources数据集上相比于MVASM算法的聚类精度、标准化互信息和纯度分别提升了7.46、15.34和5.48个百分点。  相似文献   

15.
针对大规模点集可能存在噪声、离群点及遮挡等情况,提出一种基于K-means+〖KG-*3〗+的多视图点云配准方法。首先,利用K-means+〖KG-*3〗+算法的随机播种技术对下采样后的多视图点集选取初始化的质心,并根据算法的基本原理完成聚类;其次,将点云数据存入K-D树结构,并利用最近邻搜索算法建立点集间的对应关系,从而提升对应点集的搜索效率;最后,通过迭代最近点算法依照扫描顺序计算各视图聚类得到的点云数据与所有视图间的刚性变换参数,将成对配准造成的误差均匀扩散到每个视图中,直至获得最终配准结果。在Stanford三维点云数据集上进行实验的结果表明,本文提出的方法比近年的部分多视图配准算法具有更高的配准精度及鲁棒性。  相似文献   

16.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

17.
裘国永  张娇 《计算机应用研究》2012,29(10):3685-3687
分析和研究了自适应降维算法在高维数据挖掘中的应用。针对已有数据挖掘算法因维灾难导致的在处理高维数据时准确率和聚类质量都较低的情况,将二分K-均值聚类和SVM决策树算法结合在一起,提出了一种适用于高维数据聚类的自适应方法 BKM-SVMDT。该算法能保证二分K-均值聚类是在低维数据空间中进行,其结果再反过来帮助SVM在高维空间中的执行,这样反复执行以取得较好的分类精度和效率。标准数据集的实验结果证明了该方法的有效性。  相似文献   

18.
针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略 (uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法 (non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明 MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。  相似文献   

19.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

20.
针对差分隐私保护下单一聚类算法准确性和安全性不足的问题,提出了一种基于差分隐私保护的Stacking集成聚类算法。使用Stacking集成多种异质聚类算法,将K-means聚类、Birch层次聚类、谱聚类和混合高斯聚类作为初级聚类算法,结合轮廓系数对初级聚类算法产生的聚类结果加权并入原始数据,将K-means算法作为次级聚类算法对扩展后的数据集进行聚类分析。其中,针对原始数据和初级聚类算法的聚类结果分别提出自适应的ε函数确定隐私预算,为不同敏感度的数据分配不同程度的Laplace噪声。理论分析和实验结果均表明,与单一聚类算法相比,该算法满足ε-差分隐私保护的同时有效提高了聚类准确性,实现了隐私保护与数据可用性的高度平衡。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号