首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 76 毫秒
1.
自适应的软子空间聚类算法   总被引:6,自引:0,他引:6  
陈黎飞  郭躬德  姜青山 《软件学报》2010,21(10):2513-2523
软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数,且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时,最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性.  相似文献   

2.
基于子空间维度加权的密度聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在高维数据聚类中,受维度效应的影响,现有的算法聚类效果不佳。为此,提出一种适用于高维数据的密度聚类算法StaDeCon。在经典的PreDeCon算法基础上,引入子空间维度权重的计算方法,避免PreDeCon算法使用全空间距离度量带来的问题,提高了聚类的质量。在合成数据和实际应用数据集上的实验结果表明,该算法在高维数据聚类上可取得较好的聚类精度,算法是有效可行的。  相似文献   

3.
多视角子空间聚类方法为高维多视角数据的聚类问题提供了大量的解决方案.但是现有的子空间方法仍不能很好地解决以下两个问题:(1)如何利用不同视角的差异性进行学习获得一个优质的共享系数矩阵;(2)如何增强共享系数矩阵的低秩性.针对以上问题,提出了一种有效的双加权多视角子空间聚类算法.该算法首先通过子空间自表达学习到每个视角的...  相似文献   

4.
现有多视角子空间聚类方法大多学习多视角数据的一致共享信息,并将每个视角的贡献视为同等重要以集成多个视角的差异信息.然而此思想忽略不同视角间可能存在的噪声或冗余,导致最终聚类性能不佳.为此,文中提出流形正则引导的自适应加权多视角子空间聚类算法.算法采用核范数学习每个视角的一致性全局低秩表示信息并利用组效应刻画不同视角的差异信息.根据流形正则的思想,自适应学习每个视角的权重,自动为每个视角的差异信息分配贡献度.再根据自适应权重集成差异信息并融合一致信息,获得最终的共识表示.最后利用该共识表示实现聚类.在6个公开数据集上的实验表明文中算法能有效提升多视角聚类性能.  相似文献   

5.
稀疏子空间聚类(Sparse subspace clustering,SSC)算法在处理高光谱遥感影像时,地物的划分精度较低,为了提高地物划分精度,本文提出了一种基于信息熵的加权块稀疏子空间聚类算法(Weighted block sparse subspace clustering algorithm based on...  相似文献   

6.
特征加权距离与软子空间学习相结合的文本聚类新方法   总被引:1,自引:0,他引:1  
王骏  王士同  邓赵红 《计算机学报》2012,35(8):1655-1665
文本数据维数高、数据分布稀疏、不同类别的特征相互重叠,这为聚类分析提出了挑战.针对文本数据的这一特点,将特征加权技术与软子空间相结合,基于模糊聚类的算法框架,提出了一种适用于高维文本数据的软子空间模糊聚类新方法.首先,基于加权范数理论,提出了新的特征加权距离计算方法.接着,将其与软子空间学习的理论框架相结合,提出了面向模糊聚类的新的目标学习准则.通过向约束条件中引入熵指数r,从而扩展了模糊指数m的取值范围,并给出了物理解释.基于Zangwill收敛定理对算法的全局收敛性给出理论证明.实验表明,文中算法可以使软子空间学习和聚类分析同时进行,其性能比现有的相关算法有了较大的提高.  相似文献   

7.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

8.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。  相似文献   

9.
高维数据的稀疏性和"维灾"问题使得多数传统聚类算法失去作用,因此研究高维数据集的聚类算法己成为当前的一个热点.子空间聚类算法是实现高维数据集聚类的有效方法之一.介绍并实现了基于可变加权的高维数据子空间聚类算法SCAD和EWKM,并分别对人造数据、现实数据等数据集进行测试,根据测试结果进行分析,对比两种算法的性能及适用场合.  相似文献   

10.
朱红  丁世飞 《计算机科学》2016,43(2):95-97, 128
提出了一种基于属性区分能力和AP聚类的属性粒化方法(Attribute Granulation based on attribute discernibility and AP algorithm,AGAP)。该方法首先依据属性依赖度计算属性的区分能力;然后将所有属性作为潜在的聚类中心,使用AP算法聚类,得到若干个属性簇类;最后采取选用代表属性的方法得到较粗的属性粒子,从而达到属性粗粒化的要求。对高维数据的特征降维,这种算法比传统的属性约简算法大大提高了运算效率,在属性粒化精度要求不是很严格的情况下,所提算法优势明显。  相似文献   

11.
研究了多视角聚类问题,由于多视角聚类考虑到每个样本在多个视角的信息后进行聚类,并利用了更多的有效信息,因而较单视角聚类算法更优。目前绝大多数多视角聚类算法在聚类过程中认为各个视角同等重要,但是如果其中存在质量较差的视角,则会严重影响聚类的最终结果。不同的视角由于其包含信息质量的差异,对聚类最终结果的影响也是不同的。根据每个视角对聚类的贡献率赋予每个视角不同的权值,并利用中心化策略,提出了基于视角熵权重的中心化多视角模糊聚类(entropy weighting centralized multi-view fuzzy clustering,EWCMVC)算法。在人工数据集和实际数据集上的仿真结果验证了该算法聚类性能优于传统单视角和多视角聚类算法。  相似文献   

12.
基于k最相似聚类的子空间聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

13.
自适应熵的投影聚类算法   总被引:1,自引:0,他引:1  
受“维度效应”的影响,许多传统聚类方法运用于高维数据时往往聚类效果不佳。近年来投影聚类方法获得广泛关注,其中软子空间聚类法更是得到了广泛的研究和应用。然而,现有的投影子空间聚类算法大多数均要求用户预先设置一些重要参数,且未能考虑簇类投影子空间的优化问题,从而降低了算法的聚类性能。为此,定义了一种新的优化目标函数,在最小化簇内紧凑度的同时,优化每个簇所在的子空间。通过数学推导得到了新的特征权重计算方法,并提出了一种自适应的“均值型投影聚类算法。该算法在聚类过程中,依靠数据集自身的相关信息及推导获得的公式动态地计算各优化参数。实验结果表明,新算法通过对投影子空间的优化改善了聚类质量,其性能较已有投影聚类算法有了明显提升。  相似文献   

14.
余泽 《计算机系统应用》2014,23(12):125-130
混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果.针对混合属性,在此提出一种基于交集的聚类融合算法,算法单独用基于相对密度的算法处理数值属性,基于信息熵的算法处理分类属性,然后通过基于交集的融合算法融合两个聚类成员,最终得到聚类结果.算法在UCI数据集Zoo上进行验证,与现存k-prototypes与EM算法进行了比较,在聚类的正确率上都优于k-prototypes与EM算法,还讨论了融合算法中交集元素比的取值对算法结果的影响.  相似文献   

15.
主动学习已经被证明是一种成功的机器学习算法,最主要的缺点是它只注重样本的标签信息而忽略了样本的分布信息.因此带来的后果就是稳定性差,容易陷入局部最优解,同时对初始样本的选择非常敏感.论文将稀疏子空间聚类与主动学习相结合,首先利用稀疏子空间聚类找到原始数据的分布信息,然后利用该信息指导主动学习选取初始样本,使样本标注更加有效,提高了主动学习的效率,同时降低了主动学习对初始样本的敏感度.最后通过多组仿真实验证明,本方法可以有效的改善主动学习的性能.  相似文献   

16.
随着网络的普遍应用,网络中产生的数据急剧增长,大规模数据处理面临严峻挑战。本文在对AP聚类算法进行研究的基础上,利用MapReduce编程模型思想对AP聚类算法进行改进,设计在云平台Hadoop环境下运行的基于MapReduce的分布式AP聚类算法,并在实验中对不同规模的图数据进行聚类测试,实验结果表明分布式的AP聚类算法具有很好的时间效率和加速比。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号