首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于遗传算法和模糊聚类的文本分类研究   总被引:2,自引:0,他引:2  
鉴于模糊C-均值类型算法(FCM算法)对初始中心敏感的问题,提出了一种基于遗传算法和模糊聚类的文本分类方法.采用遗传算法初始聚类中心,并在适应度的计算中采用了一个可变值,用户可以在文本直接聚类时更改该值,产生用户满意的属性约简结果,极大地提高了系统的分类精度.最后通过实验给出了该算法性能的测试结果.  相似文献   

2.
一种高效的属性图聚类方法   总被引:1,自引:0,他引:1  
吴烨  钟志农  熊伟  陈荦  景宁 《计算机学报》2013,36(8):1704-1713
图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性.  相似文献   

3.
引入遗传算法试图解决海量、高维样本的聚类问题。分析了目前基于样本和属性值两类基于遗传算法的聚类算法的不足,归纳出它们的算法模型。针对多维快速聚类问题提出了密度法、网格法两种基于遗传算法的聚类算法。算法测试表明,改进后的基于遗传算法的聚类方法能够解决海量、高维样本的聚类问题。  相似文献   

4.
基于密度的混合属性数据流聚类算法   总被引:2,自引:0,他引:2  
数据流聚类分析是当前数据挖掘研究的热点问题,为了克服数据流聚类框架CluStream算法不能处理混合属性数据流的缺陷,提出了基于密度的混合属性数据流聚类算法MCStream.在微聚类中使用面向维度的距离来度量对象之间的相似度,在宏聚类中使用改进的密度聚类算法M-DBSCAN对微簇进行聚类.实验结果表明,MCStream算法能快速有效地处理混合属性数据流聚类问题.  相似文献   

5.
拓扑结构是三维CAD模型的关键属性,其对应的描述符为图、树等非线性结构.针对现有聚类算法无法有效对这些非线性描述符聚类的问题,提出一种面向非线性特征的三维CAD模型聚类算法.首先将各类非线性特征统一表征为属性图,定义属性图序列的距离矩阵;然后以距离矩阵为输入,利用非线性凝聚层次聚类算法实现属性图的聚类;最后以聚类结果为学习样本,引入增量模型的动态归类方法归类新增模式,实现三维CAD模型可重用区域的有效聚类.理论分析及实验结果表明了该算法的有效性.  相似文献   

6.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

7.
杨雪霞 《福建电脑》2011,27(6):9-10
大学图书馆读者数据中包含较多的数值型属性和类属性,因此细分聚类算法只能采用能够处理含有这两类数值属性的聚类算法,本文针对常用的混合属性数据聚类算法-模糊K-prototypes存在的初始参数选择困难等问题,提出了使用遗传算法为模糊K-prototypes寻找初始聚类中心的GA-FKP算法,克服了模糊K-prototyp...  相似文献   

8.
遗传算法具有良好的全局搜索能力,但有过早收敛和过慢结束的缺点。K-Means算法具有很强的局部搜索能力,但算法有对初始聚类中心敏感而易陷入局部最优解。针对上述问题,提出了基于K-Means变异算子的混合遗传算法聚类,将K-Means算法的局部搜索能力与遗传算法的全局寻优搜索能力相结合,在遗传算法中引入K-Means变异算子,采用符号编码、自适应变异、最优个体保留策略的混合遗传算法。仿真实验表明,该算法有效克服了遗传算法过慢收敛和K-Means算法陷入局部收敛的问题,从而得到更好的聚类效果。  相似文献   

9.
针对经典K-means聚类算法存在易陷入局部最优解的缺点,提出并实现了一种基于Hadoop的改进型遗传聚类算法.该算法利用遗传算法具有全局性和并行性的特点去处理K-means聚类算法易陷入局部最优的缺点,在此基础上对遗传算法进行改进,然后将改进后的遗传算法与K-means算法相结合,为提高算法执行效率,将其基于Hadoop平台进行了实现.通过实验将该改进方法与经典聚类算法进行对比分析,实验结果表明该方法在聚类准确性和聚类效率上均有较大的提高.  相似文献   

10.
一种基于遗传算法的聚类方法及其应用   总被引:1,自引:0,他引:1  
吴月娴  葛临东  许志勇  薛富强 《计算机仿真》2007,24(11):182-184,189
文中提出了一种基于遗传算法的自适应聚类新算法,该算法以聚类中心坐标为遗传算法种群的个体,采用改进的遗传算子和群体更新规则,利用遗传算法的高效全局搜索特性实现聚类,不仅克服了模糊C-均值算法对初始聚类中心和样本输入次序敏感等不足,而且在结合聚类有效性分析的基础上实现了聚类中心数目的自适应调整.通过以该自适应聚类算法对MQAM信号星座进行重构,提出了一种基于星座聚类的MQAM调制识别新方法.仿真表明,文中提出的聚类算法运算效率较高,结果令人满意;基于该聚类算法的MQAM信号识别方法是实际有效的.  相似文献   

11.
特征加权的模糊C聚类算法   总被引:2,自引:0,他引:2  
参照文献[5]中将K-means聚类算法与特征权重优化相结合的方法,推导出FCM聚类算法与特征权重优化相结合的优化迭代公式,形成加权FCM算法.将加权FCM算法中计算聚类均值项的公式代入到计算隶属度的更新公式和特征权重的更新公式中,得到加权FCM扩展算法.由于这个扩展算法消去了均值项,它对于有序属性和无序类别属性的隶属度和特征权重的更新公式具有统一的形式,因此可以很方便地应用到混合属性数据集的加权聚类分析中来.该算法的收敛性分析与FCM类似,算法迭代结束后能给出一组优化的特征权重值.仿真实验结果与WKMeans算法的结果基本一致,说明该方法在优化混合属性数据集的特征权重时是有效的.  相似文献   

12.
传统的粗糙集均值算法RCM的聚类准则是建立在参与聚类的属性同等重要的假设下,而在自然场景下的聚类问题中,不同的属性对聚类结果的影响是不同的。针对该问题,提出了将聚类属性进行加权处理的WRCM算法。具体地,为了筛选出对聚类结果产生关键影响的具有辨别力的聚类属性,算法通过引入权重矩阵将不同的属性赋予不同的属性权重。实验结果表明,本算法可以达到属性选择的效果,从而提高了最终的聚类精确度。  相似文献   

13.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

14.
Due to data sparseness and attribute redundancy in high-dimensional data, clusters of objects often exist in subspaces rather than in the entire space. To effectively address this issue, this paper presents a new optimization algorithm for clustering high-dimensional categorical data, which is an extension of the k-modes clustering algorithm. In the proposed algorithm, a novel weighting technique for categorical data is developed to calculate two weights for each attribute (or dimension) in each cluster and use the weight values to identify the subsets of important attributes that categorize different clusters. The convergence of the algorithm under an optimization framework is proved. The performance and scalability of the algorithm is evaluated experimentally on both synthetic and real data sets. The experimental studies show that the proposed algorithm is effective in clustering categorical data sets and also scalable to large data sets owning to its linear time complexity with respect to the number of data objects, attributes or clusters.  相似文献   

15.
为了解决由于入侵检测样本数据多和冗余属性导致的BP神经网络训练速度慢和效率低的问题,本文提出利用模糊k均值聚类算法对样本数据依据和目标属性相关性和隶属度强弱进行聚类,优化神经网络权值。实验表明,该算法检测的准确率较高,网络入侵检测的性能和效率都得到了提高。  相似文献   

16.
为了防止数据敏感属性的泄露,需要对数据敏感属性进行匿名保护。针对l-多样性模型当前已提出的算法大多是建立在概念层次结构的基础上,该方法会导致不必要的信息损失。为此,将基于属性泛化层次距离KACA算法中的距离度量方法与聚类结合,提出了一种基于聚类的数据敏感属性匿名保护算法。该算法按照l-多样性模型的要求对数据集进行聚类。实验结果表明,该算法既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度。  相似文献   

17.
成对约束的属性加权半监督模糊核聚类算法   总被引:1,自引:0,他引:1  
在机器学习和数据挖掘中,带约束的半监督聚类是一个活跃的研究领域。为了利用约束条件获得表现更优异的聚类效果,提出了一种成对约束的属性加权半监督聚类算法,该方法充分考虑了属性间的不平衡性,在传统模糊聚类算法中融合半监督学习机制并通过Mercer核把原始的观察空间映射到高维特征空间。实验结果表明,该算法优于相似的成对约束的竞争群算法(PCCA)。  相似文献   

18.
一般空间模糊聚类算法没有区分各属性之间的不平衡性和讨论分类数何时为最佳,针对这一问题,提出了一种加权空间模糊动态聚类算法。该算法首先利用层次分析法得到各属性的权值;然后将权值与空间模糊动态聚类法相结合;最后利用概率统计中的F-分布来确定最佳分类,以提高空间模糊聚类算法的智能性。将文中算法与基于模糊等价关系的传递闭包方法进行比较,试验表明,该算法聚类准确率要明显高于未加权的模糊聚类算法。  相似文献   

19.
熊丽琼  郭帆  余敏 《计算机应用》2008,28(4):896-898
提出了一种基于遗传聚类算法对入侵检测系统(IDS)报警进行聚合的方法。将报警间属性的相异程度转换到值域区间[0.0,1.0]上,两报警间的相异程度用一个相异度矩阵表示;利用遗传算法的自适应优化特性选取较优的聚类中心,根据报警间的相异度矩阵将相似的报警进行聚类;在此基础上,分别对每一类中的报警采用凝聚层次的聚合方法进行聚合。实验结果证明,该方法能够有效地减少重复报警。  相似文献   

20.
BIRCH混合属性数据聚类方法   总被引:1,自引:1,他引:1       下载免费PDF全文
数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号