首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
多视图子空间聚类方法因其可以揭示数据内在的低维结构而被广泛关注,但大多数现有的多视图子空间聚类算法直接将多个来自原始数据的充满噪声的相似度矩阵进行融合,并且通常是在得到一致的多视图表示之后再使用K均值算法聚类得到最终的结果,这种将表示的学习过程和后续的聚类过程分离的两阶段算法会导致无法得到最优的聚类结果.为了解决这些问题,提出一种单步划分融合多视图子空间聚类算法.该算法不是直接融合具有噪声和冗余信息的相似度矩阵,而是从相似度矩阵中提取出更具有判别性信息的划分级信息进行融合.提出一个新的框架,将表示学习、多视图信息融合以及最后的聚类过程整合在同一框架中.这三个过程彼此促进,好的聚类结果可以引导生成更好的多视图表示,从而得到更好的聚类效果.提出一种有效的轮替优化算法来解决由此得到的优化问题.最后,在四个真实的基准数据集上得到的实验结果可以证明提出方法的有效性以及先进性.  相似文献   

2.
一种高维空间数据的子空间聚类算法   总被引:6,自引:1,他引:6  
王生生  刘大有  曹斌  刘杰 《计算机应用》2005,25(11):2615-2617
传统网格聚类方法由于没有考虑到相邻网格内的数据点对考查网格的影响,存在不能平滑聚类以及聚类边界判断不清的情况。为此提出了一种高维空间数据的子空间聚类算法,扩展了相邻聚类空间。实验结果显示,克服了传统聚类的不平滑现象,使聚类边界得以很好的处理。  相似文献   

3.
一种基于网格方法的高维数据流子空间聚类算法   总被引:4,自引:0,他引:4  
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。  相似文献   

4.
在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基础上结合降维技术、自适应网格划分、相对熵和分布式计算,提出了一种改进的自适应网格划分的分布式聚类算法(AMCBS),可以较好解决以上问题.经实验证明,该算法对于D31标准数据集、UCI数据集、人脸图片数据集和GitHub文本数据集等的效果均优于常见的聚类算法,具有较好的准确率和较高的运行效率.  相似文献   

5.
SUBCLU高维子空间聚类算法在自底向上搜索最大兴趣子空间类的过程中不断迭代产生中间类,这些中间类的产生消耗了大量时间,针对这一问题,提出改进算法BDFS-SUBCLU,采用一种带回溯的深度优先搜索策略来挖掘最大兴趣子空间中的类,通过这种策略避免了中间类的产生,降低了算法的时间复杂度。同时BDFS-SUBCLU算法在子空间中对核心点增加一种约束,通过这个约束条件在一定程度上避免了聚类过程中相邻的类由于特殊的数据点合为一类的情况。在仿真数据集和真实数据集上的实验结果表明BDFS-SUBCLU算法与SUBCLU算法相比,效率和准确性均有所提高。  相似文献   

6.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

7.
为了解决相交网格划分技术中聚类结果对数据输入顺序的依赖性和聚类结果精度不高的问题,提出了一种基于相交划分的动态网格聚类算法(DGBO)。该算法利用相交网格划分技术和移动网格技术来解决上述问题,通过连接相交的高密度网格单元形成聚类,只需一个参数,运行速度快。实验表明,DGBO算法能够快速有效地对任意形状、大小的数据集进行聚类,并能很好地识别出孤立点和噪声。  相似文献   

8.
高维数据的稀疏性和"维灾"问题使得多数传统聚类算法失去作用,因此研究高维数据集的聚类算法己成为当前的一个热点.子空间聚类算法是实现高维数据集聚类的有效方法之一.介绍并实现了基于可变加权的高维数据子空间聚类算法SCAD和EWKM,并分别对人造数据、现实数据等数据集进行测试,根据测试结果进行分析,对比两种算法的性能及适用场合.  相似文献   

9.
基于k最相似聚类的子空间聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
子空间聚类是聚类研究领域的一个重要分支和研究热点,用于解决高维聚类分析面临的数据稀疏问题。提出一种基于k最相似聚类的子空间聚类算法。该算法使用一种聚类间相似度度量方法保留k最相似聚类,在不同子空间上采用不同局部密度阈值,通过k最相似聚类确定子空间搜索方向。将处理的数据类型扩展到连续型和分类型,可以有效处理高维数据聚类问题。实验结果证明,与CLIQUE和SUBCLU相比,该算法具有更好的聚类效果。  相似文献   

10.
近年来,多核聚类(MKC)在融合多源信息以提高聚类性能方面取得了显著进展。但是,以n表示样本数,O(n2)内存消耗和On3计算消耗限制了这些方法的实用性。重新设计了基于子空间分割的MKC公式,从而将其内存和计算复杂度分别降低到O(n)和O(n2)。在该算法(基于压缩子空间对齐的多核聚类算法CSA-MKC)中,通过对部分数据采样来重建整个数据集。具体而言,在该算法中,在信息融合过程中同时学习了共识采样矩阵,从而使生成的锚点集更适合于跨不同视图的数据重建。因此,改进了重构矩阵的判别性,并增强了聚类性能。此外,该算法易于并行化,通过GPU加速,在6个数据集上进行了测试,在时间上,该算法是数据规模的平方复杂度,在性能上,优于目前的先进算法。  相似文献   

11.
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性.  相似文献   

12.
本文提出了一种基于自适应网格划分的数据流聚类算法。通过采用网格的自适应划分,对传统的基于密度网格的数据流聚类算法,以均衡划分网格的方法进行改进,使网格的划分更加合理,减少硬性划分对结果可能造成的影响,提高了硬性划分边界的精度。同时采用剪枝方法,减少了算法的执行时间。最后,通过实验验证了该算法的有效性。  相似文献   

13.
网络信息安全中的数据具有维数高、规模复杂等特性。网络入侵检测需要对网络入侵信息进行合理的分析,筛选出危险的带有攻击性的行为。随着数据维数的不断升高,传统的基于距离的聚类分析方法不再适用。针对此,本文提出一种基于Krylov子空间方法的高维数据聚类分析算法,首先将高维数据投影到低维空间,实现数据的降维,再用基于遗传算法的K-means算法在低维空间中进行数据的聚类,避免了数据属性的丢失,同时也提高了高维数据聚类分析的效率。最后,使用KDD Cup 99数据进行实验,实验验证了方法的有效性和精确性。  相似文献   

14.
提出一种基于密度与分形维数的数据流聚类算法。采用在线/离线的两阶段框架,结合密度聚类和分形聚类的优点,克服传统数据流聚类算法的不足。针对数据流的时效性,在计算网格密度时对数据点使用衰减策略。实验结果表明,该算法能有效提高数据流聚类效率及聚类精度,且可以发现任意形状和距离非邻近的聚类。  相似文献   

15.
16.
基于k均值分区的流数据高效密度聚类算法   总被引:2,自引:0,他引:2  
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的.  相似文献   

17.
徐鲲鹏  陈黎飞  孙浩军  王备战 《软件学报》2020,31(11):3492-3505
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.  相似文献   

18.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号