首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。  相似文献   

2.
CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。  相似文献   

3.
CABOSFV是一种有效的高维数据聚类算法。针对CABOSFV算法倾向于将数据对象分配到更大的类中这一问题,提出一种拓展差异度的高维数据聚类算法(CABOSFV_D)。该算法引入了调整指数[p],对原始稀疏差异度进行拓展,降低类大小对对象分配的影响;同时用位集的方式实现CABOSFV_D算法,使算法的运算效率明显提升。基于多个UCI标准数据集进行聚类实验,结果表明CABOSFV_D在聚类效果和时间效率上均优于原始CABOSFV算法。  相似文献   

4.
聚类分析是一种非监督型知识发现的方法,能有效地处理大量的、繁杂的、属性众多的且没有类标志的数据.DBSCAN算法能实现任意形状的数据集的聚类,模糊C均值适合于那些在簇中心周围呈均匀分布的数据集,CABOSFV算法对于高维稀疏数据集(例如Web数据)能很好地聚类.在I-Miner中嵌入DBSCAN、CABOSFV和模糊C均值三种聚类分析算法,能够较好地满足用户的需要,建立数据挖掘模型,支持生产决策.  相似文献   

5.
基于聚类的数据挖掘技术在电子商务CRM中的应用研究   总被引:1,自引:0,他引:1  
本文通过对电子商务中客户关系管理聚类数据挖掘技术的研究,提出基于CABOSFV算法的客户聚类算法,用于解决客户关系管理中大量高维稀疏数据组成的客户行为数据集聚类分析和信息管理问题。  相似文献   

6.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:2,自引:0,他引:2  
尹松  周永权  李陶深 《微机发展》2006,16(1):117-119
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法。通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

7.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:1,自引:1,他引:1  
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法,通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

8.
聚类分析是数据挖掘最常见的技术之一,数据的规模、维数和稀疏性都是制约聚类分析的不同方面.本文提出一种有效的高属性维稀疏数据聚类方法.给出稀疏相似度、等价关系的相似度、广义的等价关系的定义.基于对象间的稀疏相似度和等价关系原理形成初始等价类,通过等价关系的相似度修正初始等价关系,使得最终聚类结果更合理.该算法聚类过程不依赖于输入样本的排列顺序,高维稀疏数据的有效压缩提高算法在维数较高时的执行效率,适合于高维稀疏数据的聚类分析.  相似文献   

9.
针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE)。该算法利用"洗牌"模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量。最后,在高效的集群平台Spark上,实现了RW-CLOPE算法。在三个真实数据集上的实验结果表明:在数据集乱序后的份数相同时,RW-CLOPE算法比p-CLOPE算法取得更好的聚类质量。对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值;针对大量数据,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短;计算资源充足时,随机顺序的数据集份数越多,执行时间的提升越明显。  相似文献   

10.
聚类可应用于现代生活的诸多方面,现代生活中的数据对象往往是高维、稀疏的。对于此类高维数据,传统聚类算法不能有效地处理。提出一种基于属性相似性的改进的超图聚类算法,在原有超图聚类算法的基础上,根据超边距离阈值形成超图模型并采用超图分割法对数据对象进行聚类,采用簇内奇异特征值进行评估聚类质量。  相似文献   

11.
基于属性分布相似度的超图高维聚类算法研究   总被引:4,自引:0,他引:4  
在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚类。聚类结果通过簇内奇异特征值进行评价。实验结果和算法分析表明,该算法可以有效地进行聚类知识挖掘。  相似文献   

12.
提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。  相似文献   

13.
In this paper, a new classification method (SDCC) for high dimensional text data with multiple classes is proposed. In this method, a subspace decision cluster classification (SDCC) model consists of a set of disjoint subspace decision clusters, each labeled with a dominant class to determine the class of new objects falling in the cluster. A cluster tree is first generated from a training data set by recursively calling a subspace clustering algorithm Entropy Weighting k-Means algorithm. Then, the SDCC model is extracted from the subspace decision cluster tree. Various tests including Anderson–Darling test are used to determine the stopping condition of the tree growing. A series of experiments on real text data sets have been conducted. Their results show that the new classification method (SDCC) outperforms the existing methods like decision tree and SVM. SDCC is particularly suitable for large, high dimensional sparse text data with many classes.  相似文献   

14.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

15.
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。  相似文献   

16.
基于方差权重矩阵模型的高维数据子空间聚类算法   总被引:1,自引:1,他引:0  
在处理高维数据时,聚类的工作往往归结为对子空间的划分问题。大量的真实实验数据表明,相同的属性对于高维数据的每一类子空间而言并不是同等重要的,因此,在FCM算法的基础上引入了方差权重矩阵模型,创造出了新的聚类算法称之为WM-FCM。该算法通过不断地聚类迭代调整权重值,使得其重要的属性在各个子空间内更为显著地表征出来,从而达到更好的聚类效果。从基于模拟数据集以及UCI数据集的实验结果表明,该改进的算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号