首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

2.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

3.
用于文本聚类的模糊谱聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。  相似文献   

4.
基于模糊聚类的文本挖掘算法   总被引:8,自引:3,他引:5       下载免费PDF全文
针对传统FCM算法对孤立点比较敏感,须预先指定聚类数目的缺陷,提出一种新的模糊聚类算法NSFCM,将其应用干文本挖掘中。NSFCM对数据对象的隶属度增加一个权值,以减少孤立点对聚类中心的影响。采用平均信息熵确定聚类数,通过密度函数获得初始聚类中心。仿真结果证明,该算法聚类的精度和执行效率均高于FCM算法,效果较好。  相似文献   

5.
研究了从基因芯片中挖掘差异双聚类的算法。差异双聚类中的基因在不同类别的数据中表达水准不同,这样的差异双聚类可以有效地找出影响基因表达水平的关键实验因素以及对实验条件敏感的基因。传统的双聚类方法采取分别在两类基因数据中找出聚类,再进行比较以得到最终的差异双聚类,该策略的时间效率不高。为了快速地找出差异双聚类,提出一个全新的基于权值图的差异双聚类方法,该方法的主要创新之处在于直接在由两类数据构成的权值图上挖掘双聚类,避免了分别挖掘再比较的步骤。实验结果证实该算法具有较高的运行效率。  相似文献   

6.
数据流聚类分析是数据流挖掘的重要手段之一.为满足数据流不断演化及高速处理的要求,提出一种领域覆盖的数据流聚类算法NCStream(Stream clustering algorithm based on Neighborhood Covering).该算法通过建立领域覆盖模型,详细定义和分析了数据流演化过程中覆盖簇调整、创建、删除和合并的行为操作,并同时对覆盖簇的聚类特征予以在线维护.与同类算法相比,NCStream算法无需事先指定聚类簇数,避免参数设置对聚类结果造成的影响,而且易于建立空间索引,因此能够更加有效地反映数据流的演化情况.实验采用无线电实际监测数据集构造数据流,实验结果表明NCStream算法在聚类形状、聚类质量以及处理时间方面具有更好的性能.  相似文献   

7.
针对当前研究动态复杂网络的热点问题,提出了一种基于选择性聚类融合的社区挖掘算法.该算法首先将动态过程划分为相同时间间隔的快照,利用欧几里德距离、顶点权重等技术,使用一种改进的层次聚类算法加快聚类速度,得到每个快照相应的聚类结果;然后根据这些聚类结果之间的差异性,筛选聚类结果集合,为融合过程提供多样性的聚类成员;考虑到时间衰减性,设计了加权共联矩阵,使用单链接算法来得到最终的聚类结果.在随机网络和真实世界网络上对算法的计算速度和动态特征挖掘情况两方面进行实验,结果表明了该算法的可行性和有效性.  相似文献   

8.
根据聚类假设,提出一种新的基于图的半监督学习算法,称为密度敏感的半监督聚类。该算法引入一种密度敏感的距离测度,它能较好地反映聚类假设,并且充分挖掘了数据集中复杂的内在结构信息,同时与基于图的半监督学习方法相结合,使得算法在聚类性能上有了显著的提高。经过实验仿真进一步表明,该算法在特定图像应用上具有优越性。  相似文献   

9.
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法.为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm).算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上.实验表明,算法WVB-MSCA是可行且有效的.  相似文献   

10.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。  相似文献   

11.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。  相似文献   

12.
基于Web日志挖掘的Web文档聚类   总被引:2,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

13.
聚类集成中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.引入谱聚类算法解决该问题,提出了基于相似度矩阵的谱算法(SMSA),但该算法高昂的计算代价使其不适合大规模文本集.进一步研究了谱聚类算法的特性,对超边的相似度矩阵进行谱分析.提出了基于超边相似度矩阵的元聚类算法(HSM-MCLA).真实文本数据集的实验结果表明:SMSA和HSM-MCLA比其他基于图划分的集成算法更优越;HSM-MCLA可获得与SMSA相当的结果,而计算需求却明显低于SMSA.  相似文献   

14.
董新科  张晖 《计算机系统应用》2014,23(1):158-161,183
随着高校管理信息化的加速和高校管理部门对各类校园信息资源需求的不断加强, 校园一卡通被广泛应用于学生生活的各个领域, 并要求对其存储的海量数据进行挖掘分析为各个部门提供决策依据。聚类算法作为最常用的数据挖掘方法之一被广泛应用于一卡通数据挖掘, 但目前不清楚哪种方法更适用于一卡通数据。使用多种常用聚类算法对一卡通数据进行了实验, 得出了最适合挖掘该数据的聚类算法, 并分析了相关原因。  相似文献   

15.
随着软件数量的急剧增长以及种类的日益多样化,挖掘软件需求文本特征并对软件需求特征聚类,成为了软件工程领域的一大挑战。软件需求文本的聚类为软件开发过程提供了可靠的保障,同时降低了需求分析阶段的潜在风险和负面影响。然而,软件需求文本存在离散度高、噪声大和数据稀疏等特点,目前有关聚类的工作局限于单一类型的文本,鲜有考虑软件需求的功能语义。文中鉴于需求文本的特点和传统型聚类方法的局限性,提出了融合自注意力机制和多路金字塔卷积的软件需求聚类算法(SA-MPCN&SOM)。该方法通过自注意力机制捕获全局特征,然后基于多路金字塔卷积从不同窗口的通路深度挖掘需求文本特征,使得感知的文本片段逐倍增加,最终融合多路文本特征,利用SOM完成聚类。在软件需求数据上的实验表明,所提方法能较好地挖掘需求特征并对其聚类,性能上优于其他特征提取方式和聚类算法。  相似文献   

16.
近几年来,流数据成为主流的数据形式之一。如网络入侵监测数据,股票数据等都是不断变化的流数据。聚类作为数据挖掘领域的主要技术手段之一,因此流数据的聚类也受到了众多学者的广泛关注。而流数据不同于静态数据的特性给流数据的聚类带来了挑战。本文总结了传统数据的聚类算法和流数据聚类挖掘的研究方法,并提出了对未来将群智能应用于流数据聚类算法的展望。  相似文献   

17.
《微型机与应用》2017,(12):16-18
采用AP聚类算法进行复杂网络社团挖掘,提高了社团挖掘的精度,但在处理海量数据时算法速率明显下降,其中一个重要原因是单台计算机的计算性能无法满足海量数据的计算需求。为了提高社团挖掘AP聚类在处理海量数据时的速率,设计出一种在Hadoop框架下进行的社团挖掘的并行化AP聚类方法;将传统单机模式下的社团挖掘AP聚类算法在分布式平台上分布进行并行化。实验表明,社团挖掘的并行化AP聚类方法在社团挖掘精度不下降的情况下提高了海量数据的社团挖掘速率。  相似文献   

18.
朱永红 《微机发展》2007,17(1):123-124
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

19.
分布式环境中聚类问题算法研究综述   总被引:1,自引:0,他引:1  
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。  相似文献   

20.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号