共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
在现有的算法DBSCAN基础上,提出一种基于密度的处理购物篮事务数据的聚类方法-DCMBD(density-based clustering for market basketdata)。使用了一种新的事务表示法,解决了购物篮数据的高维性和稀疏性问题。并对算法进行了相应的改进,从而提高了聚类速度。实验结果表明此方法是有效可行的。 相似文献
3.
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。 相似文献
4.
This paper presents a new efficient algorithm for clustering categorical data,Squeezer,which can produce high quality clustering results and at the same time deserve good scalability.The Squeezer algorithm reads each tuple t in sequence,either assigning t to an existing cluster (initially none),or creating t as a new cluster,which is determined by the similarities between t and clusters.Due to its characteristics,the proposed algorithm is extremely suitable for clustering data streams,where given a sequence of points,the objective is to maintain consistently good clustering of the sequence so far,using a small amount of memory and time.Outliers can also be handled efficiently and directly in Squeezer.Experimental results on real-life and synthetic datasets verify the superiority of Squeezer. 相似文献
5.
6.
研究了一种移动数据的预估聚类分析算法。首先建立移动数据的数学模型,然后在此模型的基础上,提出一个基于微簇的移动数据的聚类分析算法,并对移动微簇的相交和分裂事件进行了详细地分析。提出的新算法可以预测一定时间段内的任意时刻数据的聚类情况。 相似文献
7.
改进的混合属性数据聚类算法 总被引:1,自引:0,他引:1
k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性.对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法.该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性.实际数据集仿真结果表明,改进算法是正确和有效的. 相似文献
8.
数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。 相似文献
9.
10.
11.
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。 相似文献
12.
13.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。 相似文献
14.
隐私保护是数据挖掘中一个重要的研究方向。针对如何在不共享精确数据的条件下,应用k-平均聚类算法从数据中发现有意义知识的问题,提出了一种基于安全多方计算的算法。算法利用半可信第三方参与下的安全求平均值协议,实现了在分布式数据中进行k-平均聚类挖掘时隐私保护的要求。实验表明算法能很好的隐藏数据,保护隐私信息,且对聚类的结果没有影响。 相似文献
15.
一种适用于高维数据流的子空间聚类方法 总被引:2,自引:0,他引:2
受频繁模式挖掘中FP树算法的启发,结合静态高维数据聚类中CLIQUE算法所体现的思想,设计一种树形数据结构DenseGrid树(简称DG树),以记录用于聚类的数据流摘要信息,并通过搜索树中路径从高维数据流中发现存在聚类的低维子空间,从而将高维空间聚类问题转化成构造DG树并利用这种树形数据结构搜索高密网格单元的过程。实验表明,这种聚类方法具有良好的聚类效果和伸缩性。 相似文献
16.
17.
传感器节点的资源是有限的,高的通信开销会消耗大量的电量。为了减小分布式流数据分类算法的通信开销,提出一种高效的分布式流数据聚类算法。该算法包含在线局部聚类和离线全局协同聚类两个阶段。在线局部聚类算法将每个流数据源进行局部聚类,并将聚类后的结果通过序列化技术发往协同节点;协同节点得到来自不同流数据源的局部聚类信息后进行全局聚类。从实验中可以看出,当不断增加窗口的大小时,算法用于数据发送的时间恒定不变,算法的聚类时间和总的时间呈线性增长,即所提出算法的执行时间不受滑动窗口宽度和聚类个数的影响;同时该算法与集中式算法的准确性接近,并且通信开销远远小于相关的分布式算法。实验结果表明,该算法具有很好的可扩展性,可应用于对大规模分布式流数据源进行聚类分析。 相似文献
18.
Based on the molecular kinetic theory, a molecular dynamics-like data clustering approach is proposed in this paper. Clusters are extracted after data points fuse in the iterating space by the dynamical mechanism that is similar to the interacting mechanism between molecules through molecular forces. This approach is to find possible natural clusters without pre-specifying the number of clusters. Compared with 3 other clustering methods (trimmed k-means, JP algorithm and another gravitational model based method), this approach found clusters better than the other 3 methods in the experiments. 相似文献
19.
针对传统模糊特征检测方法存在的效率低、精度不高等问题,设计了一种新的网络安全防护态势优化模型;对网络安全状态分布进行建模,并利用数据挖掘技术对网络信息进行挖掘;利用新型入侵识别检测方法对所设计的网络安全估计状态进行自适应特征提取,提取网络安全状况的特征数据集和处理单元;采用模糊C平均数据聚类方法(FCM)提取综合信息;对入侵特征信息流进行分类,根据属性分类结果进行网络安全态势预测,实现安全态势评估;基于不同场景下进行实验,结果表明,所提算法适用于网络安全的场景,准确性和鲁棒性都得到了验证。 相似文献
20.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data. 相似文献