首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
AP算法在图像聚类中的应用研究   总被引:1,自引:0,他引:1  
文章提出采用分块加权颜色直方图作为图像特征,将Affinity Propagation(AP)聚类算法应用到图像聚类中,并将该算法加以实现,进行算法性能研究,实验结果表明AP聚类算法应用于图像聚类能够取得较好的效果.  相似文献   

2.
一种大规模的递增聚类算法及其在文档聚类中的应用   总被引:2,自引:0,他引:2  
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用。K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求。该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-teringFeatures,CF)结构来表示聚类,能更有效地保留和利用聚类信息。它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当。通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性。  相似文献   

3.
模糊聚类算法在汉语文本聚类中的应用   总被引:8,自引:2,他引:8  
应用一种新的分词算法对汉语文本进行分词,该算法具备不使用词典和语法知识、不使用汉语词法规则、无监督等特点。采用模糊聚类算法对汉语文本进行聚类,该模糊聚类算法优于普通的聚类算法,聚类结果能充分体现汉语文本的多样性和大量性的特点。  相似文献   

4.
5.
一种基于GN算法的文本概念聚类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。  相似文献   

6.
数据挖掘中聚类算法比较研究   总被引:16,自引:0,他引:16  
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。  相似文献   

7.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

8.
朱永红 《微机发展》2007,17(1):123-124
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

9.
随着互联网的高速发展,海量信息越来越多,搜索引擎技术发展很快,但是搜索引擎的搜索结果仍然不能满足人们的搜索要求,引入k-means聚类算法对Web文档进行聚类,为了提高聚类性能,引入蛙跳算法进行k值的选取.目的是提高搜索结果的准确性,增加搜索引擎返回结果与查询主题的相关性.  相似文献   

10.
聚类算法在入侵检测中的应用   总被引:1,自引:0,他引:1  
入侵检测中对未知入侵的检测主要由异常检测完成,传统的异常检测方法需要构造一个正常行为特征轮廓的参考模型,但获取完全正常的数据比较困难。介绍的聚类技术是应用到入侵异常检测中的一种较为新颖的技术,是一种无需指导的异常检测技术,可以区分哪些是正常记录,哪些是异常记录。分析了将聚类方法应用于入侵检测中的可行性及对数据处理的标准化方法。另外,给出了基于覆盖的聚类算法与两种经典聚类算法的比较。  相似文献   

11.
传统FCM聚类算法存在初始聚类中心较为敏感的问题,易陷入局部最优。针对此问题,提出了基于密度权值和自适应免疫系统的FCM算法(d-AIFCM)。算法在对Web用户进行聚类分析的过程中,基于用户群体之间的相似性,引入密度权值生成候选初始聚类中心,采用自适应免疫系统的原理确定初始聚类中心,自动生成最佳分类,解决传统FCM算法对初始聚类中心敏感的问题。实验结果表明,d-AIFCM算法在收敛次数和聚类效果方面较其他同类算法有所提升。  相似文献   

12.
Several fast algorithms for clustering very large data sets have been proposed in the literature, including CLARA, CLARANS, GAC-R3, and GAC-RARw. CLARA is a combination of a sampling procedure and the classical PAM algorithm, while CLARANS adopts a serial randomized search strategy to find the optimal set of medoids. GAC-R3 and GAC-RARw exploit genetic search heuristics for solving clustering problems. In this research, we conducted an empirical comparison of these four clustering algorithms over a wide range of data characteristics described by data size, number of clusters, cluster distinctness, cluster asymmetry, and data randomness. According to the experimental results, CLARANS outperforms its counterparts both in clustering quality and execution time when the number of clusters increases, clusters are more closely related, more asymmetric clusters are present, or more random objects exist in the data set. With a specific number of clusters, CLARA can efficiently achieve satisfactory clustering quality when the data size is larger, whereas GAC-R3 and GAC-RARw can achieve satisfactory clustering quality and efficiency when the data size is small, the number of clusters is small, and clusters are more distinct and symmetric.  相似文献   

13.
梁喜  凯文 《计算机应用》2019,39(2):604-610
针对目前不合理的废旧产品回收以及物流活动产生的碳排放污染,提出了一种考虑客户聚类与产品回收的两级闭环物流网络选址-路径优化模型。首先,结合实际物流网络的动态性假设客户需求量和回收率的不确定性特征,以最小运营成本和最小环境影响为目标建立选址-路径优化模型;其次,对多目标进化算法进行改进,提出了考虑客户聚类结果的两级物流设施选址-路径问题求解算法;最后,对该优化算法进行算法性能分析,并以重庆市某企业为例进行了模型和算法验证。结果表明,所建立的模型和算法能有效降低决策难度并提高物流系统的运作效率,所求出的优化方案能减少物流运作成本和降低物流运输过程对环境的影响。  相似文献   

14.
一种新聚类算法在基因表达数据分析中的应用   总被引:2,自引:1,他引:1       下载免费PDF全文
自组织特征映射神经网络与层次聚类算法是两种较经典的分析基因表达数据的聚类算法,但由于基因表达数据的复杂性与不稳定性,这两种算法都存在着自身的优劣。因此,在比较两种算法差异性的基础上,创造性地提出了一种新算法,即通过SOM算法对基因表达数据进行聚类,再用层次聚类将每个类对应的神经元权值二次聚类,并将此算法应用在酵母菌基因表达数据中,用实验证明改进算法克服了自组织算法的一些缺陷,提高了基因聚类的效能。  相似文献   

15.
针对K中心点聚类算法对分类数据聚类的有效性和遗传算法良好的自组织、自适应和自学习能力,提出了基于遗传聚类算法的出行行为分析方法。该方法采用整数编码,用活动模式间的匹配度度量模式对象之间的相异度,以各活动模式与最近聚类中心点之间相异度的总和为适应度函数,探讨了K中心聚类与遗传算法相结合完成分类对象聚类分析的方法;通过算法在不同数据量和不同参数设定下仿真结果的比较,提出了关键参数的推荐值。研究表明,新方法不仅能很好地解决孤立点和局部最优的问题,同时还提高了算法的收敛速度,降低了计算成本,能很好地解决分类数据的  相似文献   

16.
提出了一种基于粗糙集联系度的聚类分析新方法,首先用粗糙集和集对分析理论对信息系统进行知识约简,然后用聚类的方法对约简后的信息系统进行聚类分析,论述了该方法的聚类过程,并给出了聚类分析的实例。  相似文献   

17.
个体行为数据聚类的双重混合高斯模型算法   总被引:1,自引:0,他引:1  
戴涛  骆科东  李春平 《计算机应用》2004,24(8):44-46,49
传统的基于概率的混合模型算法可以很好地解决个体行为数据的聚类问题,但是对于具有“多峰值”特征的行为数据则需要更精巧的方法。提出双重混合高斯模型算法(DualMGM)扩展了普通混合模型的概念,解决了多峰值特征的个体行为数据的聚类问题。DualMGM的算法复杂度是随数据量线性增长的,具有很好的可扩展性。  相似文献   

18.
决策树方法在煤炭物流客户分析中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
目前物流企业中积累了大量的客户历史数据,为了有效利用这些数据,使用数据挖掘方法对客户进行分类管理和服务是CRM中非常重要的一方面。而决策树是进行分类分析与数据挖掘的常用方法。研究了运用C4.5算法对煤炭物流客户信息构造决策树,并把提取到的规则应用到公路煤炭物流公司的客户关系管理中,结果证明具有较好的应用价值。  相似文献   

19.
针对高校实际数据质量检测过程中数据集存在缺失值以及发现的函数依赖个数较少且不准确的问题,提出了一种结合近邻传播(AP)聚类算法和TANE算法的高校函数依赖发现方法(APTANE)。首先,对数据集中的中文字段进行列剖析,将中文字段值用对应的数值来表示;其次,使用AP聚类算法对数据集中的缺失值进行填补;最后,使用TANE算法从处理好的数据集中自动发现出满足非平凡、最小要求的函数依赖。实验结果表明,在使用AP聚类算法对真实的高校数据集进行修复之后,相比于直接使用函数依赖自动发现算法,发现的函数依赖个数增加到了80个,经过缺失值填补后所发现的函数依赖在表示字段间关联关系时也更加准确,减少了领域专家的工作量,提升了高校数据所拥有数据的质量。  相似文献   

20.
蚁群聚类算法研究及应用   总被引:3,自引:1,他引:2  
聚类作为数据挖掘技术的重要组成部分,在很多领域有着广泛应用.蚁群算法是近几年研究的一种新算法,该算法采用分布式并行计算和正反馈机制,具有易于与其它方法相结合的优点.根据蚁群算法在聚类中的应用及改进型式的不同,文章主要介绍了几种基本的流行的蚁群聚类算法,分析了它们的不同之处,并对蚁群聚类算法今后的研究方向作了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号