首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
改进的基于距离的关联规则聚类   总被引:2,自引:1,他引:1  
关联规则挖掘会产生大量的规则,为了从这些规则中识别出有用的信息,需要对规则进行有效的分类组织.现有的规则聚类方法往往直接计算规则间的距离,忽略了项与项之间的联系,不能精确得出规则间的距离.提出一种改进的规则间距离的度量方法,首先计算项间的距离,其次计算相集间的距离和规则间的距离,最后基于此距离利用DBSCAN算法对关联规则进行聚类.实验结果表明,此方法是有效可行的,并能准确发现孤立规则.  相似文献   

2.
关联规则的冗余删除与聚类   总被引:9,自引:0,他引:9  
关联规则挖掘常常会产生大量的规则,这使得用户分析和利用这些规则变得十分困难,尤其是数据库中属性高度相关时,问题更为突出.为了帮助用户做探索式分析,可以采用各种技术来有效地减少规则数量,如约束性关联规则挖掘、对规则进行聚类或泛化等技术.本文提出一种关联规则冗余删除算法ADRR和一种关联规则聚类算法ACAR.根据集合具有的性质,证明在挖掘到的关联规则中存在大量可以删除的冗余规则,从而提出了算法ADRR;算法ACAR采用一种新的用项目间的相关性来定义规则间距离的方法,结合DBSCAN算法的思想对关联规则进行聚类.最后将本文提出的算法加以实现,实验结果表明该算法暑有数可行的.且具较高的效率。  相似文献   

3.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

4.
规则聚类将关联规则挖掘产生的大量规则重新组织,帮助用户发现感兴趣的规则。规则距离函数是规则聚类中的重要一环。本文基于分类信息的层次结构特点,对已有的规则距离函数进行改进。提出了参数控制距离和递归杈重距离的方法,解决了以往规则距离函数的多次匹配问题。通过距离函数的对比实验。证明提出的方法是合理有效的。  相似文献   

5.
基于最大最小距离法的多中心聚类算法   总被引:19,自引:0,他引:19  
周涓  熊忠阳  张玉芳  任芳 《计算机应用》2006,26(6):1425-1427
针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇。仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类, 聚类性能显著优于k-means算法。  相似文献   

6.
针对应用聚类方法检测入侵中参数人为指定的问题,提出了一种新的基于无监督的聚类算法。算法通过比较无类标训练集样本间的距离,根据距离最近的样本首先聚合成类的特性,在每一步聚类结束时,先预判找出疑似入侵类,然后再对疑似入侵通过比较距离及计算类内样本数占总样本数比率来做二次检测最终确定异常类。该方法不需要人为试参数且不受数据输入顺序的影响,类的形状是任意的,能较真实的反映数据分布的真实性状。最后实验仿真结果表明该算法是有效的。  相似文献   

7.
提出了一种改进的基于对称点距离的蚂蚁聚类算法。该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性,在处理带有对称性质的数据集时,可以有效地识别给定数据集的聚类数目和合适的划分。在该算法中,用人工蚂蚁代表数据对象,根据算法给定的聚类规则来寻找最合适的聚类划分。最后用本算法与标准的蚂蚁聚类算法分别对不同的数据集进行了聚类实验。实验结果证实了算法的有效性。  相似文献   

8.
为解决大规模数据集聚类过程中内存容量受限问题,提出了一种基于聚类个数约束的快速聚类算法,只需扫描一趟原始数据集,半径阈值随聚类过程动态变化;同时定义了一种包含分类属性取值频率信息的类间差异性度量,可用于混合属性数据集,时间复杂度与空间复杂度同数据集大小,属性个数近似成线性关系.在KDDCUP99数据集上的实验结果表明,提出的算法输入参数少,具有良好的聚类特性,可用于大规模数据集.  相似文献   

9.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

10.
张平  党选举  陈皓  杨文雷 《传感器与微系统》2011,30(11):135-137,141
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法.该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测.理论分析和实验结果表明...  相似文献   

11.
针对传统的半监督SVM训练方法把大量时间花费在非支持向量优化上的问题,提出了在凹半监督支持向量机方法中采用遗传FCM(GeneticFuzzyCMean,遗传模糊C均值)进行工作集样本预选取的方法。半监督SVM优化学习过程中,在原来训练集上(标签数据)加入了工作集(无标签数据),从而构成了新的训练集。该方法首先利用遗传FCM算法将未知数据划分成某个数量的子集,然后用凹半监督SVM对新数据进行训练得到决策边界与支持矢量,最后对无标识数据进行分类。这样通过减小工作样本集,选择那些可能成为支持向量的边界向量来加入训练集,减少参与训练的样本总数,从而减小了内存开销。并且以随机三维数据为例进行分析,实验结果表明,工作集减小至原工作集的一定范围内,按比例减少工作集后的分类准确率、支持向量数与用原工作集相比差别不大,而分类时间却大为减少,获得了较为理想的样本预选取效果。  相似文献   

12.
针对区间数模糊c均值聚类算法存在模糊度指数m无法准确描述数据簇划分情况的问题,对点数据集合的区间Ⅱ型模糊c均值聚类算法进行拓展,将其扩展到区间型不确定数据的聚类中。同时,分析了区间数的区间Ⅱ型模糊c均值聚类算法的收敛性,以确定模糊度指数m1和m2的取值原则。基于合成数据和实测数据的仿真实验结果表明:区间数的区间Ⅱ型模糊c均值聚类算法比区间数的模糊c均值聚类算法的聚类效果好。  相似文献   

13.
聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证.为克服这个问题,以文献[1]中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别.实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数.  相似文献   

14.
对于揭示困难情况(高维且大类数)下的类间远近关系,现有的聚类结果可视化方法的效果均不理想。提出了以线珠模式和(非)线性坐标表示类间远近关系的可视化方法,其优点是在上述困难情况下也能准确地显示各个聚类之间的远近关系或距离。对模拟和真实数据集的实验结果表明,线珠模式方法十分有效,能准确地显示基于降维可视化方法无法正确显示的类间远近关系。  相似文献   

15.
提出用于规则前件学习的中心点交叉涌现的大间隔贝叶斯模糊聚类(CECLM-BFC)算法.考虑不同样本间聚类中心的排斥作用使得聚类中心间距最大化,并采用粒子滤波方法在不同类别样本中交替执行,自动求解出最优聚类结果,包括聚类数、模糊隶属度和聚类中心.在模糊规则后件参数学习上使用分类面大间隔的策略,以MA型模糊系统为研究对象构造具有强解释性的贝叶斯MA型模糊系统(BMA-FS).实验结果表明,BMA-FS能够取得令人满意的分类性能,且模糊规则具有高度的解释性.  相似文献   

16.
BIRCH: A New Data Clustering Algorithm and Its Applications   总被引:14,自引:0,他引:14  
Data clustering is an important technique for exploratory data analysis, and has been studied for several years. It has been shown to be useful in many practical domains such as data classification and image processing. Recently, there has been a growing emphasis on exploratory analysis of very large datasets to discover useful patterns and/or correlations among attributes. This is called data mining, and data clustering is regarded as a particular branch. However existing data clustering methods do not adequately address the problem of processing large datasets with a limited amount of resources (e.g., memory and cpu cycles). So as the dataset size increases, they do not scale up well in terms of memory requirement, running time, and result quality.In this paper, an efficient and scalable data clustering method is proposed, based on a new in-memory data structure called CF-tree, which serves as an in-memory summary of the data distribution. We have implemented it in a system called BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), and studied its performance extensively in terms of memory requirements, running time, clustering quality, stability and scalability; we also compare it with other available methods. Finally, BIRCH is applied to solve two real-life problems: one is building an iterative and interactive pixel classification tool, and the other is generating the initial codebook for image compression.  相似文献   

17.
Signature-based intrusion detection systems look for known, suspicious patterns in the input data. In this paper we explore compression of labeled empirical data using threshold-based clustering with regularization. The main target of clustering is to compress training dataset to the limited number of signatures, and to minimize the number of comparisons that are necessary to determine the status of the input event as a result. Essentially, the process of clustering includes merging of the clusters which are close enough. As a consequence, we will reduce original dataset to the limited number of labeled centroids. In a complex with k-nearest-neighbor (kNN) method, this set of centroids may be used as a multi-class classifier. The experiments on the KDD-99 intrusion detection dataset have confirmed effectiveness of the above procedure.  相似文献   

18.
19.
针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(K-means Clustering Algorithm Based on Random Sampling , Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,在工作集上进行传统K-均值聚类,得到聚类中心和半径,并得到抽样结果;然后通过衡量剩下的聚类样本与已得到的抽样结果之间的关系,对剩余的样本进行归类。该方法通过随机抽样大大地减小了参与K-均值聚类的问题规模,从而有效提高了聚类效率,可解决大规模数据的聚类问题。实验结果表明,Kmeans_RS方法在大规模数据集中在保持聚类效果的同时大幅度提高了聚类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号