首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

2.
针对模糊文本聚类算法(FCM)对输入顺序以及初始点敏感的问题,提出了一种使用蚁群优化的模糊聚类算法(FACA)。该算法采用蚁群聚类算法(ACA)找到聚类的初始中心点,以解决模糊聚类的输入顺序以及初始点敏感等问题。模糊文本聚类算法的线性复杂度使其更便于在计算机实现。与经典的基本模糊聚类以及蚁群聚类在真实数据集上仿真相比较,结果表明经蚁群优化过的模糊聚类算法(FACA)效果更有效,更适合应用于大型的数据集。  相似文献   

3.
近年来谱聚类算法在模式识别和计算机视觉领域被广泛应用,而相似性矩阵的构造是谱聚类算法的关键步骤。针对传统谱聚类算法计算复杂度高难以应用到大规模图像分割处理的问题,提出了区间模糊谱聚类图像分割方法。该方法首先利用灰度直方图和区间模糊理论得到图像灰度间的区间模糊隶属度,然后利用该隶属度构造基于灰度的区间模糊相似性测度,最后利用该相似性测度构造相似性矩阵并通过规范切图谱划分准则对图像进行划分,得到最终的图像分割结果。由于区间模糊理论的引入,提高了传统谱聚类的分割性能,对比实验也表明该方法在分割效果和计算复杂度上都有较大的改善。  相似文献   

4.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

5.
文本聚类是聚类的一个重要的研究方向,是聚类在文本处理领域的重要应用.但是,传统的聚类算法在文本聚类应用中的表现并不能让人满意.文中将一种新的聚类算法--Chameleon算法引入中文文本聚类领域中.在构建中文文本聚类模型的基础上结合了分词、文本向量化等技术进行了相关实验.实验的结果表明Chameleon算法可以应用在中文文本聚类领域中,同时也解决了传统算法在聚类形状发现方面的不足.相关实验说明了这种算法在中文文本聚类领域应用中的有效性和实用性.  相似文献   

6.
针对传统模糊核聚类算法当数据类差别很大时,小数据类被误分或被大数据类吞并的缺陷,提出了一种新的加权模糊核C 均值聚类算法(Weighted Fuzzy Kernel C-Means),为每一个类分配了一个动态权值;同时将该算法引入到谱聚类中,设计了一个以图像灰度特征作为分类样本的改进的谱聚类算法,解决了谱聚类应用于图像分割时权矩阵的谱难以计算的实际问题。实验结果表该算法具有较好的分割效果。  相似文献   

7.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

8.
针对FCM聚类算法时初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法.该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果.实验表明该算法是一种精确高效的文本聚类方法.  相似文献   

9.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显。该文提出了一种粗糙谱聚类算法,并将其应用于文本数据挖掘。实验表明,该算法与现有的文本聚类算法相比,准确率有一定的提高。  相似文献   

10.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。  相似文献   

11.
Spectral clustering with fuzzy similarity measure   总被引:1,自引:0,他引:1  
Spectral clustering algorithms have been successfully used in the field of pattern recognition and computer vision. The widely used similarity measure for spectral clustering is Gaussian kernel function which measures the similarity between data points. However, it is difficult for spectral clustering to choose the suitable scaling parameter in Gaussian kernel similarity measure. In this paper, utilizing the prototypes and partition matrix obtained by fuzzy c-means clustering algorithm, we develop a fuzzy similarity measure for spectral clustering (FSSC). Furthermore, we introduce the K-nearest neighbor sparse strategy into FSSC and apply the sparse FSSC to texture image segmentation. In our experiments, we firstly perform some experiments on artificial data to verify the efficiency of the proposed fuzzy similarity measure. Then we analyze the parameters sensitivity of our method. Finally, we take self-tuning spectral clustering and Nyström methods for baseline comparisons, and apply these three methods to the synthetic texture and remote sensing image segmentation. The experimental results show that the proposed method is significantly effective and stable.  相似文献   

12.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

13.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。  相似文献   

14.
Fuzzy C-means (FCM) clustering has been widely used successfully in many real-world applications. However, the FCM algorithm is sensitive to the initial prototypes, and it cannot handle non-traditional curved clusters. In this paper, a multi-center fuzzy C-means algorithm based on transitive closure and spectral clustering (MFCM-TCSC) is provided. In this algorithm, the initial guesses of the locations of the cluster centers or the membership values are not necessary. Multi-centers are adopted to represent the non-spherical shape of clusters. Thus, the clustering algorithm with multi-center clusters can handle non-traditional curved clusters. The novel algorithm contains three phases. First, the dataset is partitioned into some subclusters by FCM algorithm with multi-centers. Then, the subclusters are merged by spectral clustering. Finally, based on these two clustering results, the final results are obtained. When merging subclusters, we adopt the lattice similarity method as the distance between two subclusters, which has explicit form when we use the fuzzy membership values of subclusters as the features. Experimental results on two artificial datasets, UCI dataset and real image segmentation show that the proposed method outperforms traditional FCM algorithm and spectral clustering obviously in efficiency and robustness.  相似文献   

15.
近年来谱聚类算法被广泛应用于图像分割领域,而相似性矩阵的构造是谱聚类算法的关键步骤。 针对传统谱聚类算法计算复杂度高难以应用到大规模图像分割处理的问题,提出了基于半监督的超像素谱聚类彩色图像分割算法。该算法利用超像素将彩色图像进行预分割,利用用户提供的少量标记信息构造预分割区域的基于半监督的模糊相似性测度,利用该相似性测度构造预分隔区域的相似性矩阵并通过规范切图谱划分准则对预分割区域进行划分得到最终的图像分割结果。由于少量标记信息和模糊理论的引入,提高了传统谱聚类的分割性能,对比实验也表明该算法在分割效果和计算复杂度上都有较大的改善。  相似文献   

16.
宋艳  殷俊 《计算机应用》2005,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

17.
广义可能性C均值聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
可能性C均值聚类算法(PCM)中模糊加权指标m要求大于1,通过对PCM算法的分析讨论,将PCM算法中模糊加权指标m设置为多个独立变量,且将其取值范围进行了扩展,称之为广义可能性C均值聚类(GPCM)。GPCM从理论上分析了加权指标m的扩展取值范围,并利用粒子群算法(PSO)对样本模糊隶属度进行估计。GPCM算法突破了PCM算法对参数m的约束。仿真实验验证了所提算法的有效性。  相似文献   

18.
一种基于三角模糊数多指标信息的FCM 聚类算法   总被引:2,自引:2,他引:2  
樊治平  于春海  尤天慧 《控制与决策》2004,19(12):1407-1411
针对一类具有不确定性三角模糊数多指标信息的聚类分析问题,基于传统的数值信息FCM聚类算法,提出一种新的聚类分析算法.首先描述了具有三角模糊数多指标信息的聚类分析问题,提出并证明了基于三角模糊数多指标信息的关于最优划分和最优聚类中心确定的两个定理;然后根据这两个定理,进一步给出了基于三角模糊数信息的FCM聚类算法的迭代步骤;最后通过一个算例说明了该聚类算法的具体应用.  相似文献   

19.
软硬结合的快速模糊C-均值聚类算法的研究   总被引:2,自引:1,他引:1  
讨论的是对模糊C-均值聚类方法的改进,在原有的模糊C-均值算法的基础上,提出一种软硬结合的快速模糊C-均值聚类算法。快速模糊C-均值聚类算法是在模糊C-均值聚类算法之前加入一层硬C-均值聚类算法。硬聚类算法能比模糊聚类算法以高得多的速度完成,将硬聚类中心作为模糊聚类中心的迭代初值,从而提高模糊C-均值聚类算法的收敛速度,这对于大量数据的聚类是很有意义的。用数据仿真验证了这种快速模糊C-均值聚类算法比模糊C-均值算法迭代调整过程短,收敛速度快,聚类效果好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号