首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘中聚类算法的新发展*   总被引:6,自引:0,他引:6  
在对传统聚类方法进行简要介绍的基础上,对聚类的新发展进行了较详细的归纳,总结了聚类分类方法发展的趋势。  相似文献   

2.
在现有的算法DBSCAN基础上,提出一种基于密度的处理购物篮事务数据的聚类方法-DCMBD(density-based clustering for market basketdata)。使用了一种新的事务表示法,解决了购物篮数据的高维性和稀疏性问题。并对算法进行了相应的改进,从而提高了聚类速度。实验结果表明此方法是有效可行的。  相似文献   

3.
田华  何翼 《计算机应用研究》2020,37(12):3586-3589
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。  相似文献   

4.
Squeezer: An efficient algorithm for clustering categorical data   总被引:25,自引:0,他引:25       下载免费PDF全文
This paper presents a new efficient algorithm for clustering categorical data,Squeezer,which can produce high quality clustering results and at the same time deserve good scalability.The Squeezer algorithm reads each tuple t in sequence,either assigning t to an existing cluster (initially none),or creating t as a new cluster,which is determined by the similarities between t and clusters.Due to its characteristics,the proposed algorithm is extremely suitable for clustering data streams,where given a sequence of points,the objective is to maintain consistently good clustering of the sequence so far,using a small amount of memory and time.Outliers can also be handled efficiently and directly in Squeezer.Experimental results on real-life and synthetic datasets verify the superiority of Squeezer.  相似文献   

5.
从空间数据挖掘的基本概念出发,阐述了空间数据的特点及空间数据挖掘的常规方法,分析了用常规方法进行数据挖掘的不足,提出了一种求解空间数据聚类的粒子动力学演化算法——SDCPDEA。该方法有效地避免了用常规方法进行空间数据聚类时的缺陷,增强了聚类分析方法的灵活性和有效性。实验结果表明,对于空间数据的聚类分析问题,该算法具有很好的性能。  相似文献   

6.
研究了一种移动数据的预估聚类分析算法。首先建立移动数据的数学模型,然后在此模型的基础上,提出一个基于微簇的移动数据的聚类分析算法,并对移动微簇的相交和分裂事件进行了详细地分析。提出的新算法可以预测一定时间段内的任意时刻数据的聚类情况。  相似文献   

7.
改进的混合属性数据聚类算法   总被引:1,自引:0,他引:1  
k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性.对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法.该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性.实际数据集仿真结果表明,改进算法是正确和有效的.  相似文献   

8.
BIRCH混合属性数据聚类方法   总被引:1,自引:1,他引:1       下载免费PDF全文
数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。  相似文献   

9.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

10.
一种高维空间数据的子空间聚类算法   总被引:6,自引:1,他引:6  
王生生  刘大有  曹斌  刘杰 《计算机应用》2005,25(11):2615-2617
传统网格聚类方法由于没有考虑到相邻网格内的数据点对考查网格的影响,存在不能平滑聚类以及聚类边界判断不清的情况。为此提出了一种高维空间数据的子空间聚类算法,扩展了相邻聚类空间。实验结果显示,克服了传统聚类的不平滑现象,使聚类边界得以很好的处理。  相似文献   

11.
动态滑动窗口的数据流聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。  相似文献   

12.
为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚簇的算法。通过真实数据集与仿真数据集的实验表明,算法使用代表点能够发现不同形状的聚簇并显著降低数据传输量,同时通过测试—更新局部模型算法避免了频繁发送数据。  相似文献   

13.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。  相似文献   

14.
隐私保护是数据挖掘中一个重要的研究方向。针对如何在不共享精确数据的条件下,应用k-平均聚类算法从数据中发现有意义知识的问题,提出了一种基于安全多方计算的算法。算法利用半可信第三方参与下的安全求平均值协议,实现了在分布式数据中进行k-平均聚类挖掘时隐私保护的要求。实验表明算法能很好的隐藏数据,保护隐私信息,且对聚类的结果没有影响。  相似文献   

15.
一种适用于高维数据流的子空间聚类方法   总被引:2,自引:0,他引:2  
颜晓龙  沈鸿 《计算机应用》2007,27(7):1680-1684
受频繁模式挖掘中FP树算法的启发,结合静态高维数据聚类中CLIQUE算法所体现的思想,设计一种树形数据结构DenseGrid树(简称DG树),以记录用于聚类的数据流摘要信息,并通过搜索树中路径从高维数据流中发现存在聚类的低维子空间,从而将高维空间聚类问题转化成构造DG树并利用这种树形数据结构搜索高密网格单元的过程。实验表明,这种聚类方法具有良好的聚类效果和伸缩性。  相似文献   

16.
面向聚类的数据隐藏通常使用数据扰动技术防止敏感信息泄露。针对现有的面向聚类的数据扰动方法隐私保护度低的问题,提出一种基于平面反射的数据扰动方法,将发布对象的全部属性两两配对构成平面上的点,再随机选择一条直线,作每对属性关于直线的对称点,转换后的数据即为发布的数据。实验结果表明,这种方法具有较好的隐私保护度和聚类可用性,且对高维数据有良好的适应性。  相似文献   

17.
朱强  孙玉强 《计算机应用》2014,34(9):2505-2509
传感器节点的资源是有限的,高的通信开销会消耗大量的电量。为了减小分布式流数据分类算法的通信开销,提出一种高效的分布式流数据聚类算法。该算法包含在线局部聚类和离线全局协同聚类两个阶段。在线局部聚类算法将每个流数据源进行局部聚类,并将聚类后的结果通过序列化技术发往协同节点;协同节点得到来自不同流数据源的局部聚类信息后进行全局聚类。从实验中可以看出,当不断增加窗口的大小时,算法用于数据发送的时间恒定不变,算法的聚类时间和总的时间呈线性增长,即所提出算法的执行时间不受滑动窗口宽度和聚类个数的影响;同时该算法与集中式算法的准确性接近,并且通信开销远远小于相关的分布式算法。实验结果表明,该算法具有很好的可扩展性,可应用于对大规模分布式流数据源进行聚类分析。  相似文献   

18.
Based on the molecular kinetic theory, a molecular dynamics-like data clustering approach is proposed in this paper. Clusters are extracted after data points fuse in the iterating space by the dynamical mechanism that is similar to the interacting mechanism between molecules through molecular forces. This approach is to find possible natural clusters without pre-specifying the number of clusters. Compared with 3 other clustering methods (trimmed k-means, JP algorithm and another gravitational model based method), this approach found clusters better than the other 3 methods in the experiments.  相似文献   

19.
针对传统模糊特征检测方法存在的效率低、精度不高等问题,设计了一种新的网络安全防护态势优化模型;对网络安全状态分布进行建模,并利用数据挖掘技术对网络信息进行挖掘;利用新型入侵识别检测方法对所设计的网络安全估计状态进行自适应特征提取,提取网络安全状况的特征数据集和处理单元;采用模糊C平均数据聚类方法(FCM)提取综合信息;对入侵特征信息流进行分类,根据属性分类结果进行网络安全态势预测,实现安全态势评估;基于不同场景下进行实验,结果表明,所提算法适用于网络安全的场景,准确性和鲁棒性都得到了验证。  相似文献   

20.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号