共查询到20条相似文献,搜索用时 140 毫秒
1.
一种基于局部密度的分布式聚类挖掘算法 总被引:4,自引:1,他引:3
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的. 相似文献
2.
郑吉 《数字社区&智能家居》2009,(7)
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。 相似文献
3.
郑吉 《数字社区&智能家居》2009,5(3):1557-1558
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。 相似文献
4.
基于属性分布相似度的超图高维聚类算法研究 总被引:4,自引:0,他引:4
在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚类。聚类结果通过簇内奇异特征值进行评价。实验结果和算法分析表明,该算法可以有效地进行聚类知识挖掘。 相似文献
5.
半监督谱聚类特征向量选择算法 总被引:7,自引:0,他引:7
对于一个K类问题,Ng-Jordan-Weiss(NJW)谱聚类算法通常采用数据规范化亲和度矩阵的前K个最大特征值对应的特征向量作为数据的一种表示。然而,对于某些模式识别问题,这K个特征向量不一定能够体现原始数据的结构。文中提出一种半监督谱聚类特征向量选择算法。该算法利用一定量的监督信息寻找能够体现数据结构的特征向量组合,进而获得优于传统谱聚类算法的聚类性能。UCI标准数据集和MNIST手写体数据集上的仿真实验验证该算法的有效性和鲁棒性。 相似文献
6.
基于分形维度的完全分布式聚类算法 总被引:2,自引:0,他引:2
传统的聚类算法通常针对单处理机,当数据资源分别存储在不同节点的计算机时,无法运用传统的聚类算法进行计算。本文提出一种完全分布式聚类算法,通过计算分形维度,利用分布式环境信息广播方式交流多台计算机的运行结果,最终汇集成全局聚类的信息进行聚类。理论分析表明,该算法不仅对分布数据可以很好的聚类而且可以最大限度降低通信成本和延时情况。 相似文献
7.
8.
在数据聚类当中,谱聚类是最流行的方法之一,其性能取决于所选取相关图的拉普拉斯(Laplacian)矩阵的特征向量。对于一个K类问题,Ng-Jordan-Weiss(NJW)谱聚类算法通常采用Laplacian矩阵的前K个最大特征值对应的特征向量作为数据的一种表示。然而,对于某些分类问题,这K个特征向量不一定能够很好地体现原始数据的信息。本文提出一种基于均值的谱聚类特征向量选择算法。该算法首先得出图的Laplacian矩阵的前3K个最大特征值的均值,然后选取K个离均值最近的特征值所对应的特征向量。相比传统谱聚类算法,该算法在UCI数据集上获得了较好的聚类性能。 相似文献
9.
DK-Means——分布式聚类算法K-Dmeans的改进 总被引:2,自引:0,他引:2
随着网络的广泛应用,大量的数据将分布存在.由于网络带宽、站点存储量等一系列限制,分布式聚类分析成为具有挑战性的研究课题.人们已经提出了若干分布式聚类方法,但这些方法效率低下.对分布式聚类算法k-Dmeans进行改进,提出了分布式聚类算法Dk-means. 该算法只传送各站点的聚簇信息,有效降低了分布式聚类过程中的数据通信量.理论分析和实验结果表明,算法Dk-means的效率优于k-Dmeans,并且可达到与k-means等效的聚类质量. 相似文献
10.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高. 相似文献
11.
动态加权模糊核聚类算法 总被引:2,自引:0,他引:2
为了克服噪声特征向量对聚类的影响,充分考虑各特征向量对聚类结果的贡献度的不同,运用mercer核将待聚类的数据映射到高维空间,提出了一种新的动态加权模糊核聚类算法.该算法运用动态加权,自动消弱噪声特征向量在分类中的作用,在对数据没有任何先验信息的情况下,不仅能够准确划分线性数据,而且能够做到非线性划分非团状数据.仿真和实际数据分类结果表明,数据中的噪声对分类结果影响较小,该算法具有很高的实用性. 相似文献
12.
13.
14.
对支持向量聚类中核区域的形成原理进行了深入分析,阐明了核区域在支持向量聚类进行重叠数据处理时的独特作用。针对视频数据内容存在大量数据重叠分布的特点,提出了一种基于支持向量的镜头聚类算法。利用颜色和时间作为特征向量,计算特征空间的聚类核区域,进而产生镜头聚类,克服了传统镜头聚类算法计算量大、仅以时间阈值判断镜头相似度等缺陷。 相似文献
15.
16.
17.
论文构造了一个实时多媒体数据挖掘模型,提出了一种原始视频数据进行数据挖掘的新机制,主要采用分层向量距离来进行动态可控序列分析分割、段内特征提取,使用粒子群K均值进行段间聚集,在一定程度上,解决了多媒体数据挖掘各方面的特殊要求。挖掘模型中各个部分与提出的技术相结合,基本上能满足实时情况下处理原始视频数据的要求。 相似文献
18.
19.
Alzate Carlos Suykens Johan A. K. 《IEEE transactions on pattern analysis and machine intelligence》2010,32(2):335-347
A new formulation for multiway spectral clustering is proposed. This method corresponds to a weighted kernel principal component analysis (PCA) approach based on primal-dual least-squares support vector machine (LS-SVM) formulations. The formulation allows the extension to out-of-sample points. In this way, the proposed clustering model can be trained, validated, and tested. The clustering information is contained on the eigendecomposition of a modified similarity matrix derived from the data. This eigenvalue problem corresponds to the dual solution of a primal optimization problem formulated in a high-dimensional feature space. A model selection criterion called the Balanced Line Fit (BLF) is also proposed. This criterion is based on the out-of-sample extension and exploits the structure of the eigenvectors and the corresponding projections when the clusters are well formed. The BLF criterion can be used to obtain clustering parameters in a learning framework. Experimental results with difficult toy problems and image segmentation show improved performance in terms of generalization to new samples and computation times. 相似文献
20.
在社会化标记系统中,常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高.针对此问题,提出一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果. 相似文献