首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于谱聚类的聚类集成算法   总被引:6,自引:7,他引:6  
周林  平西建  徐森  张涛 《自动化学报》2012,38(8):1335-1342
谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集成算法.该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员; 然后,采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息;最后,对相似度矩阵使用谱聚类算法得到最终的集成结果. 为了使算法能扩展到大规模应用,利用Nystrm采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度. 本文算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题.实验结果表明:较之其他常见的聚类集成算法,本文算法更优越、更有效,能较好地解决数据聚类、图像分割等问题.  相似文献   

2.
聚类集成中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.引入谱聚类算法解决该问题,提出了基于相似度矩阵的谱算法(SMSA),但该算法高昂的计算代价使其不适合大规模文本集.进一步研究了谱聚类算法的特性,对超边的相似度矩阵进行谱分析.提出了基于超边相似度矩阵的元聚类算法(HSM-MCLA).真实文本数据集的实验结果表明:SMSA和HSM-MCLA比其他基于图划分的集成算法更优越;HSM-MCLA可获得与SMSA相当的结果,而计算需求却明显低于SMSA.  相似文献   

3.
一种改进的多视图聚类集成算法   总被引:1,自引:0,他引:1  
邓强  杨燕  王浩 《计算机科学》2017,44(1):65-70
近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。  相似文献   

4.
鉴于计算代价高昂的谱聚类无法满足海量网络社区发现的需求,提出一种用于网络重叠社区发现的谱聚类集成算法(SCEA).首先,利用高效的近似谱聚类(KASP)算法生成个体聚类集合;然后,引入个体聚类选择机制对个体聚类进行优选,并对优选后的个体聚类建立簇相似图;最后,进行层次软聚类,得到网络节点的软划分.实验结果表明,与代表性算法(CPM,Link,COPRA,SSDE)相比较,SCEA能够挖掘出具有更高规范化互信息(NMI)的网络重叠社区结构,且具有相对较好的鲁棒性.  相似文献   

5.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

6.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

7.
聚类集成是机器学习中的新问题.它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能.如何发现从多个划分中得到“consensus clustering”是一个很困难的问题.很多学者对此作了研究.本文提出了一种基于互信息的模糊聚类集成算法.该算法主要扩展了Strehl & Ghosh提出的基于互信息的聚类集成目标函数,将其应用到模糊划分的集成,同时利用类似于信息瓶颈聚类的算法进行求解.实验结果表明,在4个UCI的数据集上,基于互信息的聚类集成能获得良好的性能.  相似文献   

8.
基于矩阵谱分析的文本聚类集成算法   总被引:1,自引:0,他引:1  
聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLM-SA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多.  相似文献   

9.
一种改进的自适应聚类集成选择方法   总被引:1,自引:0,他引:1  
徐森  皋军  花小朋  李先锋  徐静 《自动化学报》2018,44(11):2103-2112
针对自适应聚类集成选择方法(Adaptive cluster ensemble selection,ACES)存在聚类集体稳定性判定方法不客观和聚类成员选择方法不够合理的问题,提出了一种改进的自适应聚类集成选择方法(Improved ACES,IACES).IACES依据聚类集体的整体平均归一化互信息值判定聚类集体稳定性,若稳定则选择具有较高质量和适中差异性的聚类成员,否则选择质量较高的聚类成员.在多组基准数据集上的实验结果验证了IACES方法的有效性:1)IACES能够准确判定聚类集体的稳定性,而ACES会将某些不稳定的聚类集体误判为稳定;2)与其他聚类成员选择方法相比,根据IACES选择聚类成员进行集成在绝大部分情况下都获得了更佳的聚类结果,在所有数据集上都获得了更优的平均聚类结果.  相似文献   

10.
聚类集成算法通常对聚类成员差异性要求较高,导致算法在生成聚类成员阶段计算复杂度提高。针对该问题提出了一种基于遗传算法的聚类集成方法CEGA,不考虑聚类成员的差异性,而是利用目标函数将聚类问题转化为聚类成员的优化问题,充分利用遗传算法内在的并行性和全局寻优能力,对聚类成员进行优化组合,并以得到的最优染色体作为聚类集成最终结果。分析了CEGA的复杂度及适用范围,并利用UCI数据库中部分数据集进行实验,实验结果表明这种聚类集成方法的有效性。  相似文献   

11.
一种高效的层次聚类分析算法   总被引:4,自引:0,他引:4  
吴帆  李石君 《计算机工程》2004,30(9):70-71,81
层次聚类算法是一类重要的聚类分析方法。传统的层次聚类算法的时间和空间复杂度很大,这使得聚类分析在大型数据集上的应用受到限制。该文提出一种基于重叠区的3阶段改进算法,该算法将大大减少算法的时间复杂度和空间复杂度。  相似文献   

12.
为了解决通过原始数据集获得的基聚类结果存在一定的信息丢失,从而使得集成阶段的有效信息减少的问题,提出了一种基于非负矩阵分解的K-means聚类集成算法。该算法先利用K-means聚类算法获得集成信息矩阵,然后从原始数据集获取数据相关性,将两者结合后通过非负矩阵分解(NMF)技术构建共识函数以获得最终结果。实验证明,所提算法可以有效获取原始数据的潜在信息,并提高聚类质量。  相似文献   

13.
一种实用高效的聚类算法   总被引:20,自引:0,他引:20       下载免费PDF全文
王建会  申展  胡运发 《软件学报》2004,15(5):697-705
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能.  相似文献   

14.
基于聚类的高效k-匿名化算法   总被引:1,自引:0,他引:1  
KACA算法是一种较好的基于局部重编码的k-匿名化算法,它产生的匿名化微数据的信息损失少,数据可用性高.但该算法的效率低,不适合匿名化规模很大的微数据.为解决该问题,将高效的聚类算法--c-modes算法--与KACA算法结合,提出了c-modes-KACA算法.该算法首先采用C-modes算法将整个数据集划分为较大的类,然后采用KACA算法来分别k-匿名化这些类中元组数大于2k-1的类.实验表明,c-modes-KACA算法产生的信息损失量与KACA算法相近,效率却比KACA算法高得多.  相似文献   

15.
基于网格的聚类算法可以高效处理低维的海量数据.然而,对于维数较高的数据集,生成的单元数过多导致算法的效率较低.CD-Tree是一种只保存非空单元的索引结构,基于CD-Tree设计了新的基于网格的聚类算法,利用CD-Tree的优点提高了传统的基于网格的聚类算法的效率.此外,该算法聚类时只需访问稠密单元,设计了优化策略,在聚类之前剪枝掉非稠密单元,进一步提高了算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法有更好的可伸缩性.  相似文献   

16.
基于聚类分析的综合神经网络集成算法   总被引:3,自引:2,他引:1  
齐新战  刘丙杰  冀海燕 《计算机仿真》2010,27(1):166-169,192
研究神经网络集成是一种有效实用的分类方法,权值是影响神经网络集成性能的重要因素。为了克服神经网络集成固定权值的缺陷,提出一种基于聚类分析的综合神经网络集成算法。算法首先将样本分类,每类样本中加入其他样本类一定数量的中心样本,不同的神经网络学习不同类的样本。根据输入数据与样本类别之间的相关程度自适应调整集成权值。算法不仅用于自适应调整集成权值,而且是一种产生个体神经网络的训练方法。四个数据集上的仿真试验证实了算法的有效性。  相似文献   

17.
视频镜头聚类是基于内容的视频分析和检索领域中的一个重要问题.提出了一种对视频镜头的半监督聚类算法(SSCA),该算法首先在初始化时对已知的成对实例约束集进行聚类,利用在初始化时生成的簇来指导高维空间中其他视频镜头数据的聚类.由于高维空间中不同的维度存在着不同的相关性,所以为每一个簇引入权重向量.之后提出了一种基于最大距离的聚类中心分割策略,来解决聚类中心的选取问题.最后,考虑到对于聚类个数的选择往往对最终的结果有很大的影响,算法中采用贝叶斯信息准则来评估给定范围的聚类个数.实验结果表明,提出的算法有效地提高了聚类算法的准确性并减少了算法的响应时间.  相似文献   

18.
一种有效的用于范例提取的改进聚类算法   总被引:8,自引:0,他引:8  
针对传统范例提取算法随范例教增加而效率下降快的缺点,结合基于选择的CLARA聚类方法和NCL聚类算法的优点,给出了一种有效的无监督聚类学习算法.通过实验表明,该算法能在无监督下对范例进行准确归类,将它用于CBR的范例提取中,能大大地提高范例提取的速度和质量。  相似文献   

19.
论文在LEACH-M的基础上提出一种高效的无线传感器网络分簇算法.新算法在保持簇的稳定性的同时,在簇头选择过程中引入稳定性因子对簇的稳定性进行度量,选取稳定性因子最小的节点成为簇头.在簇的组建过程中设置能量阈值作为簇的重建条件,减小簇的重建频率,同时采用单跳与多跳结合的数据传输模型,解决网络中的热点、热区问题.仿真结果表明:新算法能够有效提高在移动环境下的吞吐量,延长网络寿命.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号