首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对多数据库挖掘的预处理,提出了运用聚类的思想来对数据库进行分类。同时,提出了改进的BestClassification算法。通过实验证明这种分类方法具有较好的有效性和正确性。  相似文献   

2.
多数据库挖掘最常用的方法是先将多数据库进行分类,然后对每个类进行单独挖掘,最后将各个类中的模式进行集成得到全局模式。这些数据库分类方法都只是针对事务数据库而设计,用两个数据库中共同项集的比例来衡量这两个数据库的相似度,以此来进行数据库分类。本文提出一种基于聚类的数据库分类方法,可以对任何类型的数据库进行分类。  相似文献   

3.
多尺度聚类挖掘算法   总被引:3,自引:1,他引:2  
数据挖掘领域在多尺度研究上已取得了一些进展。然而,当前研究主要集中于空间、图像数据的多尺度挖掘,并且传统的聚类挖掘并未对数据集的多尺度特性进行单独的研究。针对存在的问题,进行了普适性的多尺度聚类挖掘理论和方法的研究。首先,根据概念分层理论扩展尺度定义并构建多尺度数据集;其次,阐述尺度转换原因、分类,归纳多尺度聚类的定义;然后,以克里格法为理论基础,给出多尺度聚类尺度上推算法MSCSUA和多尺度聚类尺度下推算法MSCSDA;最后,利用公用UCI聚类数据集和H省全员人口真实数据集对算法进行实验验证,结果表明MSCSUA和MSCSDA是有效、可行的。  相似文献   

4.
多尺度聚类挖掘在指导人们进行多尺度决策方面有着不可取代的作用,然而传统的多尺度聚类挖掘算法有一个致命的弱点,即需要在每个用户感兴趣的尺度上应用聚类挖掘算法.为克服此缺陷,定义了一种将数据的多尺度特性进行向量化的方法;结合地学领域的尺度转换机制,提出了一种新的知识的多尺度转换机制——基于加权向量提升的多尺度聚类挖掘算法WVB-MSCA(Weight Vector Based Multi-scale Clustering Algorithm).算法首先在选定的基准尺度上进行聚类挖掘,获取聚类结果,并借助尺度转换机制将基准尺度的聚类结果反演到其它感兴趣的尺度上.实验表明,算法WVB-MSCA是可行且有效的.  相似文献   

5.
针对二叉树支持向量机在多类分类问题上存在的不足,利用粒子群算法对模糊C均值聚类算法进行了改进,在此基础上,结合二又树支持向量机,构建了偏二叉树多类分类算法.该方法在二叉树各节点处根据聚类中心所对应的样本构造学习样本集和最优分类超平面,保障了聚类精度,有效地提高了测试正确率.实验表明,本文提出BT-SVM多类分类算法的测试正确率要高于同类多类分类算法.  相似文献   

6.
对支持向量机的多类分类问题进行研究,提出了一种基于核聚类的多类分类方法。利用核聚类方法将原始样本特征映射到高维特征进行聚类分组,对每一组使用一个支持向量机二值分类器进行分类,并用这些二值分类器组成决策树的节点,构成了一个决策分类树。给出决策树的生成算法,提出了利用交叠系数来控制交叠,从而克服错分积累,提高分类准确率。实验结果表明,采用该方法,手写体汉字识别速度和正确率都达到了实用的要求。  相似文献   

7.
多标签分类的实质就是为给定实例预测一个与其关联的标签集合。典型方法可以分为两类:问题转换型和算法适应型。本文主要研究基于标签幂集的问题转换型算法。由于已有的标签幂集算法很难发现甚至可能忽略隐藏在训练集中的重要标签集合,因此,本文提出了一种基于标签聚类的标签幂集方法,通过改进平衡k-means聚类来发现训练集中潜在的重要标签集合,并用于形成新的训练集进行多标签分类。经实验验证,该算法在多个评价指标上较原有的标签幂集方法具有更好的分类性能。  相似文献   

8.
分别提出了面向服刑人员的聚类和分类算法,针对服刑人员的表现特征在服刑期内连续变化和多样性的特点,分别采用隐马尔可夫模型为聚类模型和LDA主题模型为分类模型,对应急指挥综合管理平台中所收集到的多种服刑人员的业务管理信息进行综合聚类分类处理。实验表明,隐马尔可夫模型可以体现出各服刑人员在整个服刑阶段表现的时序变化,从而进行准确的聚类判断;LDA主题模型可以考虑到服刑人员的多种属性,从而对其进行准确的类别判断。  相似文献   

9.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

10.
提出一种k-means聚类算法和超球结合的多类分类算法。对每一类样本,使用k-means算法获得子类,再在各个子类上构造最小超球,由此,对每类都获得一个超球集,这些超球将样本空间分割,根据样本点所在空间的位置,综合得到决策函数,用于对输入样本点进行类别判断。  相似文献   

11.
随着数据挖掘技术的日趋成熟,其在生活中的作用也越来越重要。本文首先介绍了数据挖掘,聚类分析和分类分析的相关知识,然后将层次聚类应用到分类规则挖掘中。  相似文献   

12.
基于DBSCAN聚类算法的研究与实现   总被引:18,自引:0,他引:18  
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。文中分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

13.
获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.  相似文献   

14.
We are witnessing the era of big data computing where computing the resources is becoming the main bottleneck to deal with those large datasets. In the case of high-dimensional data where each view of data is of high dimensionality, feature selection is necessary for further improving the clustering and classification results. In this paper, we propose a new feature selection method, Incremental Filtering Feature Selection (IF2S) algorithm, and a new clustering algorithm, Temporal Interval based Fuzzy Minimal Clustering (TIFMC) algorithm that employs the Fuzzy Rough Set for selecting optimal subset of features and for effective grouping of large volumes of data, respectively. An extensive experimental comparison of the proposed method and other methods are done using four different classifiers. The performance of the proposed algorithms yields promising results on the feature selection, clustering and classification accuracy in the field of biomedical data mining.  相似文献   

15.
Lazy和Eager分类算法的比较研究   总被引:1,自引:1,他引:0  
数据挖掘的两个高层目标是预测和描述,这个过程中分类算法的应用是非常广泛的。分类算法在机器学习领域中可以分为Lazy和Eager两种类型,分别具有不同的算法特点。文章基于实验对这两种类型的分类算法进行了分析,概括出适宜两种类型的环境条件,旨在提出实际应用中进行算法选择的经验性结论。  相似文献   

16.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法——基于决策树的协同进化分类算法。实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集。  相似文献   

17.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法--基于决策树的协同进化分类算法.实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集.  相似文献   

18.
关联规则和分类规则挖掘算法的改进与实现   总被引:5,自引:0,他引:5  
陶树平  屠颖 《计算机工程》2003,29(15):100-101,187
对Apriori关联规则挖掘算法提出了一种改进方法,使其可以有效地压缩数据规模,提高了原Apriori算法的执行效率。此外,还对OCI分类规则挖掘算法提出了改进,扩展了该算法的适用范围。同时,该采用这两个改进算法实现了一个数据挖掘原型系统。  相似文献   

19.
大规模交易数据库的一种有效聚类算法   总被引:13,自引:0,他引:13  
陈宁  陈安  周龙骧 《软件学报》2001,12(4):475-484
研究大规模交易数据库的聚类问题,提出了一种二次聚类算法——CATD.该算法首先将数据库划分成若干分区,在每个分区内利用层次聚类算法进行局部聚类,把交易初步划分成若干亚聚类,亚聚类的个数由聚类间的距离参数控制.然后对所有的亚聚类进行全局聚类,同时识别出噪声.由于采用了分区方法和聚类的支持向量表示法,该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号