共查询到20条相似文献,搜索用时 15 毫秒
1.
一种新型的基于密度和栅格的聚类算法* 总被引:2,自引:1,他引:1
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。 相似文献
2.
一种基于网格和密度的数据流聚类算法 总被引:1,自引:0,他引:1
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类. 相似文献
3.
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。 相似文献
4.
5.
研究了从基因芯片中挖掘差异双聚类的算法。差异双聚类中的基因在不同类别的数据中表达水准不同,这样的差异双聚类可以有效地找出影响基因表达水平的关键实验因素以及对实验条件敏感的基因。传统的双聚类方法采取分别在两类基因数据中找出聚类,再进行比较以得到最终的差异双聚类,该策略的时间效率不高。为了快速地找出差异双聚类,提出一个全新的基于权值图的差异双聚类方法,该方法的主要创新之处在于直接在由两类数据构成的权值图上挖掘双聚类,避免了分别挖掘再比较的步骤。实验结果证实该算法具有较高的运行效率。 相似文献
6.
数据流聚类分析是数据流挖掘的重要手段之一.为满足数据流不断演化及高速处理的要求,提出一种领域覆盖的数据流聚类算法NCStream(Stream clustering algorithm based on Neighborhood Covering).该算法通过建立领域覆盖模型,详细定义和分析了数据流演化过程中覆盖簇调整、创建、删除和合并的行为操作,并同时对覆盖簇的聚类特征予以在线维护.与同类算法相比,NCStream算法无需事先指定聚类簇数,避免参数设置对聚类结果造成的影响,而且易于建立空间索引,因此能够更加有效地反映数据流的演化情况.实验采用无线电实际监测数据集构造数据流,实验结果表明NCStream算法在聚类形状、聚类质量以及处理时间方面具有更好的性能. 相似文献
7.
针对当前研究动态复杂网络的热点问题,提出了一种基于选择性聚类融合的社区挖掘算法.该算法首先将动态过程划分为相同时间间隔的快照,利用欧几里德距离、顶点权重等技术,使用一种改进的层次聚类算法加快聚类速度,得到每个快照相应的聚类结果;然后根据这些聚类结果之间的差异性,筛选聚类结果集合,为融合过程提供多样性的聚类成员;考虑到时间衰减性,设计了加权共联矩阵,使用单链接算法来得到最终的聚类结果.在随机网络和真实世界网络上对算法的计算速度和动态特征挖掘情况两方面进行实验,结果表明了该算法的可行性和有效性. 相似文献
8.
9.
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法.为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm).算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上.实验表明,算法WVB-MSCA是可行且有效的. 相似文献
10.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。 相似文献
11.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。 相似文献
12.
基于Web日志挖掘的Web文档聚类 总被引:2,自引:1,他引:2
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率. 相似文献
13.
14.
随着高校管理信息化的加速和高校管理部门对各类校园信息资源需求的不断加强, 校园一卡通被广泛应用于学生生活的各个领域, 并要求对其存储的海量数据进行挖掘分析为各个部门提供决策依据。聚类算法作为最常用的数据挖掘方法之一被广泛应用于一卡通数据挖掘, 但目前不清楚哪种方法更适用于一卡通数据。使用多种常用聚类算法对一卡通数据进行了实验, 得出了最适合挖掘该数据的聚类算法, 并分析了相关原因。 相似文献
15.
随着软件数量的急剧增长以及种类的日益多样化,挖掘软件需求文本特征并对软件需求特征聚类,成为了软件工程领域的一大挑战。软件需求文本的聚类为软件开发过程提供了可靠的保障,同时降低了需求分析阶段的潜在风险和负面影响。然而,软件需求文本存在离散度高、噪声大和数据稀疏等特点,目前有关聚类的工作局限于单一类型的文本,鲜有考虑软件需求的功能语义。文中鉴于需求文本的特点和传统型聚类方法的局限性,提出了融合自注意力机制和多路金字塔卷积的软件需求聚类算法(SA-MPCN&SOM)。该方法通过自注意力机制捕获全局特征,然后基于多路金字塔卷积从不同窗口的通路深度挖掘需求文本特征,使得感知的文本片段逐倍增加,最终融合多路文本特征,利用SOM完成聚类。在软件需求数据上的实验表明,所提方法能较好地挖掘需求特征并对其聚类,性能上优于其他特征提取方式和聚类算法。 相似文献
16.
17.
18.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。 相似文献
19.
20.
朱永红 《计算机技术与发展》2007,17(1):123-125
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。 相似文献