首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于属性分布相似度的超图高维聚类算法研究   总被引:4,自引:0,他引:4  
在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚类。聚类结果通过簇内奇异特征值进行评价。实验结果和算法分析表明,该算法可以有效地进行聚类知识挖掘。  相似文献   

2.
针对传统谱聚类算法仅考虑数据点对点间的相互关系而未考虑数据间可能隐藏的复杂的相关性的问题,提出一种基于超图和自表征的谱聚类方法。首先,建立数据的超图,得到超图的拉普拉斯矩阵表示;然后,利用L2,1-范数对样本进行行稀疏自表征,同时融入超图来描述数据间多层次的相互关系;最后,利用生成的自表征系数进行谱聚类。利用基于超图的样本自表征技术考虑了样本之间复杂的相关性。通过在Hopkins155等数据集上的实验表明,在聚类错误率评判标准下,算法优于现有基于普通图的谱聚类算法SSC、SRC等。  相似文献   

3.
在本文中,我们提出了一种新的非数值数据聚类算法-VBCCD.VBCCD算法由关系表计算关系的一维分割,再由关系的分割来构造一个超图,而后通过超图分割算法,对构造出来的超图进行优化分割,得到最终的聚类结果。试验结果表明,该算法比传统的针对数值数据设计的聚类算法有更好的效果。  相似文献   

4.
网格计算是当前一个活跃的研究领域,其中任务调度是实现网格计算目标的一个重要部分.为获得良好的网格任务调度性能,提出了一种基于资源超图划分聚类的网格任务调度算法RHPC.该算法根据网格环境下资源数量庞大、异构、多样的特点,在构建的网格资源超图模型基础上,预先对资源进行性能划分聚类,将任务与聚类资源相匹配并实施调度.模拟实验结果证明算法缩短了任务资源相匹配的时间,提高了任务调度的性能,是一种有效的网格任务调度算法.  相似文献   

5.
Hierarchical Clustering Algorithms for Document Datasets   总被引:9,自引:0,他引:9  
Fast and high-quality document clustering algorithms play an important role in providing intuitive navigation and browsing mechanisms by organizing large amounts of information into a small number of meaningful clusters. In particular, clustering algorithms that build meaningful hierarchies out of large document collections are ideal tools for their interactive visualization and exploration as they provide data-views that are consistent, predictable, and at different levels of granularity. This paper focuses on document clustering algorithms that build such hierarchical solutions and (i) presents a comprehensive study of partitional and agglomerative algorithms that use different criterion functions and merging schemes, and (ii) presents a new class of clustering algorithms called constrained agglomerative algorithms, which combine features from both partitional and agglomerative approaches that allows them to reduce the early-stage errors made by agglomerative methods and hence improve the quality of clustering solutions. The experimental evaluation shows that, contrary to the common belief, partitional algorithms always lead to better solutions than agglomerative algorithms; making them ideal for clustering large document collections due to not only their relatively low computational requirements, but also higher clustering quality. Furthermore, the constrained agglomerative methods consistently lead to better solutions than agglomerative methods alone and for many cases they outperform partitional methods, as well.  相似文献   

6.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

7.
基于聚类和关联规则的挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
数据挖掘技术中关联规则可以很好地发现数据项之间存在的相互关系,同时有大量的挖掘算法可供选择。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。本文研究 聚类和关联规则的挖掘算法。  相似文献   

8.
聚类是数据挖掘研究领域的一种重要数据预处理方法,其目的是从无标签数据集中获得有价值数据集的内在分布结构,进而简化数据集的描述.历经几十年的研究,针对不同应用和数据特性己出现了千余种不同的聚类算法,但不同的聚类算法都有其特定的适用范围和不足.传统的聚类算法大致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等.通过对传统聚类方法的回顾和总结,文章重点介绍了近年来出现的同步聚类算法、信念传播聚类算法和密度峰值聚类算法,并针对以上聚类算法的应用及发展方向进行了论述.  相似文献   

9.
从多角度分析现有聚类算法   总被引:51,自引:3,他引:51  
钱卫宁  周傲英 《软件学报》2002,13(8):1382-1394
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础.  相似文献   

10.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

11.
蚁群聚类算法综述   总被引:18,自引:0,他引:18  
数据聚类是重要的数据挖掘技术,在工程和技术等领域具有广泛的应用背景。蚁群算法作为一种新型的优化方法,具有很强的鲁棒性和适应性。文章着重介绍蚁群聚类算法的研究情况,阐述当今流行的蚁群聚类算法的基本原理及其特性,旨在为蚁群聚类算法的发展提供引导作用。  相似文献   

12.
基于密度的聚类算法作为数据挖掘方法中的一种主要方法,不仅可以从数据集中发现任意形状的簇,而且可以观察到一个并发的、完整的聚类结构,以及具有对噪声数据不敏感的特点。针对目前常用的几种基于密度的聚类算法及改进算法进行讨论,分析了这些密度聚类算法各自的优缺点,并且以地理信息系统为应用研究背景,提出了基于密度的聚类算法与GIS相结合,通过对多维数据属性特征的提取,扩展到多维数据的处理,在三维空间地形数据中的分析中取得了高效的聚类结果。  相似文献   

13.
外汇交易中,一些企业由于企业本身特点或从事业务的相近有着相似的交易行为。根据这些天然特征发现具备相似行为的交易并对其分组,有利于发现海量交易数据中的典型交易行为模式,这有助于外汇管理和监督职能的更好实施。本文根据外汇交易行为的特点,用一种基于超图模型的聚类算法来发现不同类型的交易对象。  相似文献   

14.
本文针对超图切割上的半监督学习和聚类算法进行了研究;首先,通过对超图切割和超边展开法及其切割函数的讨论,引入了超图上的总变异作为超图切割的洛瓦兹扩展,并在此基础上提出了一组正则化函数,它对应于图上的拉普拉斯型正则化;然后,基于正则化函数族提出了半监督学习方法,并基于平衡超图切割提出了谱聚类方法;为了求解这两个学习问题,将它们转化为求解凸优化问题,并为此提出了一种主要组成部分为近端映射的可扩展算法,从而实现半监督学习和聚类;仿真实验结果表明,本文提出的基于超图切割实现的半监督学习和聚类方法相比于经典的超边展开法和其他图切割方法有更好的标准偏差和聚类误差性能。  相似文献   

15.
该文介绍了数据挖掘中两种重要的算法:1)发现数据分布和隐含模式的聚类算法;2)应用最为广泛的挖掘方法之一关联规则挖掘算法,并就它们在应用型院校本科教学评估中的应用进行了研究。  相似文献   

16.
数据流挖掘可有效解决大容量流式数据的知识发现问题,并已得到广泛研究.数据流的一个典型的例子是传感器采集的流式数据.然而,随着传感器网络的应用普及,这些流式数据在很多情况下是分布式采集和管理的,这就必然导致分布式地挖掘数据流的需求.分布式数据流挖掘的最大障碍是由分布式而导致的挖掘质量或者效率问题.为适应分布式数据流的聚类挖掘,探讨了分布式数据流的挖掘模型,并且基于该模型设计了对应的概要数据结构和关键的挖掘算法,给出了算法的理论评估或者实验验证.实验说明,提出的模型和算法可以有效地减少数据通信代价,并且能保证较高的全局模式的聚类质量.  相似文献   

17.
董新科  张晖 《计算机系统应用》2014,23(1):158-161,183
随着高校管理信息化的加速和高校管理部门对各类校园信息资源需求的不断加强, 校园一卡通被广泛应用于学生生活的各个领域, 并要求对其存储的海量数据进行挖掘分析为各个部门提供决策依据。聚类算法作为最常用的数据挖掘方法之一被广泛应用于一卡通数据挖掘, 但目前不清楚哪种方法更适用于一卡通数据。使用多种常用聚类算法对一卡通数据进行了实验, 得出了最适合挖掘该数据的聚类算法, 并分析了相关原因。  相似文献   

18.
针对非负张量分解应用于图像聚类时忽略了高维数据内部几何结构的问题,在经典的张量非负Tucker分解的基础上,添加超图正则项以尽可能多地保留原始数据的内在几何结构信息,提出一种基于超图正则化非负Tucker分解模型HGNTD。通过构造超图刻画数据内部样本间的高阶关系,提高几何结构描述的准确性,针对超图正则化非负张量分解模型,基于交替非负最小二乘法,设计快速有效的超图正则化非负Tucker分解算法求解所给模型,证明算法在非负的条件下是收敛的,最终将算法应用于图像聚类。在Yale和COIL两个常用公开数据集上的实验结果表明,相对于k-means、非负矩阵分解、图正则化非负矩阵分解、非负Tucker分解和图正则化非负Tucker分解等算法,超图正则化非负Tucker分解算法聚类准确度提升了8.6%~11.4%,归一化互信息提升了2.0%~7.5%,具有更好的聚类效果。  相似文献   

19.
聚类可应用于现代生活的诸多方面,现代生活中的数据对象往往是高维、稀疏的。对于此类高维数据,传统聚类算法不能有效地处理。提出一种基于属性相似性的改进的超图聚类算法,在原有超图聚类算法的基础上,根据超边距离阈值形成超图模型并采用超图分割法对数据对象进行聚类,采用簇内奇异特征值进行评估聚类质量。  相似文献   

20.
基于数据流的任意形状聚类算法   总被引:36,自引:4,他引:36  
朱蔚恒  印鉴  谢益煌 《软件学报》2006,17(3):379-387
详细分析了数据流聚类算法CluStream的不足之处,如对非球形的聚类效果不好、对周期性数据的聚类变化反映不完整等,并针对这些不足之处提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream.实验结果表明,ACluStream在准确度和速度上都比CluStream有较大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号