共查询到20条相似文献,搜索用时 359 毫秒
1.
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。 相似文献
2.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。 相似文献
3.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。 相似文献
4.
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。 相似文献
5.
基于模糊聚类的Web日志挖掘 总被引:10,自引:0,他引:10
本文使用模糊聚类的方法对Web日志进行数据挖掘,实现用户聚类和页面聚类,并设计与实现了一个基于模糊聚类的Web日志挖掘系统。 相似文献
6.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。 相似文献
7.
多尺度聚类挖掘算法 总被引:3,自引:1,他引:2
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。 相似文献
8.
用于Web文档聚类的基于相似度的软聚类算法 总被引:4,自引:1,他引:3
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。 相似文献
9.
空间聚类是GIS空间分析的主要内容之一,传统矢量空间聚类算法存在数据冗余、结果不直观等弊端,介绍了基于栅格数据的空间聚类,并且针对现下主流的网格和密度方法的聚类算法存在效率和质量问题,提出了与栅格相结合的聚类挖掘算法,以期得到时间效率和聚类质量上的提高。 相似文献
10.
11.
Web模糊聚类方法及其应用 总被引:5,自引:0,他引:5
本文提出了Web模糊聚类的概念,给出了Web模糊聚美的过程模型WFCM并进行了详细阐述,沦述了Web模糊聚类在Web访问信息挖掘中,尤其是在Web用户聚类和Web页面聚类方面的应用.最后用实例证明了在Web页面聚类中使用Web模糊聚类的可行性。 相似文献
12.
13.
基于Web日志挖掘的Web文档聚类 总被引:3,自引:1,他引:2
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率. 相似文献
14.
增量式K-Medoids聚类算法 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
15.
孙莉娜 《数字社区&智能家居》2006,(26)
面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。 相似文献
16.
文本聚类是文本挖掘的重要组成部分。本文详细分析了文本聚类的过程,并给出了一个文本聚类模型。分析比较各类聚类算法之后,着重研究了一个基于密度的聚类算法,以及它在文本挖掘中的具体应用。 相似文献
17.
位置加权文本聚类算法 总被引:2,自引:2,他引:0
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。 相似文献
18.
借鉴物理学中动力学原理,提出基于动力学理论的聚类参数挖掘策略,并应用于银行贷款数据风险评估.定义了聚类动力学参数挖掘概念、g-平均、簇的θ-相似、风险相似度等概念,提出基于聚类动力学参数挖掘的聚类策略挖掘算法CSMA(clustering strategy mining algorithm),分析了该策略在不同参数下对实验结果的影响.实验结果表明,CSMA策略使得聚类分析的精度提高了9%~13%. 相似文献
19.