首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
决策树算法在天气评估中的应用   总被引:1,自引:0,他引:1  
巩固  张虹 《微计算机信息》2007,23(34):245-247
分类算法是数据挖掘中的一个最重要技术.本文分析了决策树分类算法中的ID3算法和C4.5算法.利用它们建立天气评估的决策树模型.研究了该决策树模型在天气评估中的应用,分析了决策树算法应用于数据分类和知识发现的过程和特点.同时文章中也指出了分类算法的不足之处和待解决的问题。  相似文献   

2.
针对故障知识获取这一瓶颈难题,对基于数据挖掘的数据库技术去实现故障知识规则自动发现的方法进行了研究;在SQLSERVER 2005平台上,利用该平台提供的数据挖掘决策树算法,采用了将决策树算法与数据库系统的性能进行高效耦合的数据处理模式,建立了一种利用故障数据集自动获取故障知识规则的数据处理流程;最后利用转子故障实验获得的故障特征数据集进行的验证表明,该流程具有通过对故障数据集进行实时处理,自动建立起一种描述故障知识的决策树模型,并且通过对决策树枝进行结构元素的描述,可自动生成故障知识规则集合的功能;结果表明,SQL SERVER 2005数据挖掘平台提供的决策树算法,为基于故障数据资源的驱动挖掘出故障知识提供了一种新途径。  相似文献   

3.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

4.
数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。决策树方法是一种典型的分类算法.首先对数据进行处理,利用归纳算法生成可读的规则和决策树模型,然后使用决策树模型对新数据进行分析。该文以大学生专业方向指导辅助系统的开发过程为实例从理论上论述了数据挖掘的概念、数据挖掘研究内容和本质以及进行数据挖掘的主要方法。讲述了使用MATLAB7.0开发实现决策树算法子系统的方法和实现,并且对生成的决策树模型进行分析。  相似文献   

5.
基于决策树技术的高校研究生信息库数据挖掘研究   总被引:4,自引:0,他引:4  
对数据挖掘技术在研究生信息库中的应用进行了初步分析探讨。运用决策树中的C4.5 算法对所给数据进行分类和预测,通过一个实例给出了该算法选取决策属性的详细过程。  相似文献   

6.
基于SQL Server 2000下数据挖掘算法的研究   总被引:1,自引:0,他引:1  
微软的SQL Server2000是当今最流行的数据库管理软件之一,研究了在SQL Server 2000上数据挖掘实现方面的决策树算法.决策树算法通过构造精度高、小规模的决策树采掘训练集中的分类知识.SQL Server 2000/Analysis Service两层结构决策树,采用了以类记数表及深度优先策略生成,在建树算法和数据库间设立数据挖掘中间件.并讨论了通过使用像SQL Server 2000 Analysis Service这样的典型工具来如何实现数据挖掘模型的创建,且为商业组织的决定挖掘出必要的数据.  相似文献   

7.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

8.
分类问题是数据挖掘中的一个重要问题,分类目的就是寻找规则,具体来说,就是从给定的数据集合中找出能把数据集划分成不相交的若干个组的规则,目前已有的在大型数据库中挖掘分类规则的数据挖掘方法,主要还是基于符号学习机制的决策树方法.本文研究了一种新型的规则抽取算法,能够从神经网络中抽取出较好的规则.  相似文献   

9.
李亘 《数字社区&智能家居》2007,(12):1224-1225,1377
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discovery in Database,KDD)。决策树是数据挖掘的一个重要的技术。本文尝试把数据挖掘的方法和技术,通过实现SLIQ算法把该技术应用到税务稽查的计算机选案的途径。  相似文献   

10.
C4.5算法在列车轨道故障检测上的应用研究   总被引:1,自引:0,他引:1  
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。  相似文献   

11.
关联挖掘中的时效度研究   总被引:1,自引:0,他引:1  
传统的关联挖掘算法,以支持度和置信度作为评价标准来衡量规则是否有价值。然而,这种模式不能体现出数据的时效敏感特性,如Web数据和长期积累数据。文中将首次建立一个全新的时基模型来重新估计数据规则的价值,并给出时效度(time validity)作为新的规则价值衡量标准。最后,给出了基于这个新的时基模型的一种新并行算法。这种算法使得我们在挖掘过程中使用增量挖掘,而且使得用户可以通过互操作来优化挖掘过程。  相似文献   

12.
对大型数据库进行数据开采时,数据抽取问题及数据库和开采算法的接口设计就变得十分重要,通过定义SQL数据开采抽取器,设计了数据开采算法和数据库管理系统接口的框架体系,并通过常用的数据开采算法C4.5说明了这种标准的SQL数据开采抽取器的适用性。  相似文献   

13.
In the present scenario of global economy and World Wide Web, large sets of evolving and distributed data can be handled efficiently by incremental data mining. Frequent patterns are very important in knowledge discovery and data mining process, such as mining of association rules, correlations. FP-tree is a very versatile data structure used for mining of frequent patterns in knowledge discovery and data mining process. FP-tree is a compact representation of transaction database that contains frequency information of all relevant frequent patterns (FP) of the database. All of the existing incremental frequent pattern mining algorithms, such as AFPIM, CATS, CanTree, CP-tree, and SPO-tree, perform incremental mining by processing one transaction of the incremental part of database at a time and updating it to the FP-tree of initial (original) database. Here, in this paper, we propose a novel method that takes advantage of FP-tree representation of incremental transaction database for incremental mining. We propose a batch incremental processing algorithm BIT_FPGrowth that restructures and merges two small consecutive duration FP-trees to obtain a FP-tree of the FP-Growth algorithm. Our BIT_FPGrowth uses FP-tree as preprocessed data repository to get transactions (i.e., item-sets), unlike other sequential incremental algorithms that read transactions from database. BIT_FPGrowth algorithm takes less time for constructing FP-tree. Our experimental results show that, as the size of the database increases, increase in runtime of BIT_FPGrowth is much less and is least of all the other algorithms.  相似文献   

14.
本文在介绍数据开采基本知识的基础上提出了一个通用的开采机模型,并对其各模块的功能做出描述,针对目前许多开采大型数据库中的关联规则高效算法大多是在各自单独的领域内进行算法的理论研究与探讨的问题,本文在研究了两种高效的关联规则开采算法:最大频繁项目集算法FID(Frequent Itemsets Discovery),增量式更新算法IUA(Incremental Updating Algorithm)后,将以上算法综合并在计算机上实现,作为比较同时给出了Aprioiri(经典的关联规则开采算法)的实现。文中为了避免负面示例的问题,还引入了兴趣工的概念,并在系统中实现。  相似文献   

15.
It is frequently the case that data mining is carried out in an environment which contains noisy and missing data. This is particularly likely to be true when the data were originally collected for different purposes, as is commonly the case in data warehousing. In this paper we discuss the use of domain knowledge, e.g., integrity constraints or a concept hierarchy, to re‐engineer the database and allocate sets to which missing or unacceptable outlying data may belong. Attribute‐oriented knowledge discovery has proved to be a powerful approach for mining multi‐level data in large databases. Such methods are set‐oriented in that attribute values are considered to belong to subsets of the domain. These subsets may be provided directly by the database or derived from a knowledge base using inductive logic programming to re‐engineer the database. In this paper we develop an algorithm which allows us to aggregate imprecise data and use it for multi‐level rule induction and knowledge discovery. ©2000 John Wiley & Sons, Inc.  相似文献   

16.
一种有效的关联规则增量式更新算法   总被引:6,自引:2,他引:6  
关联规则是数据挖掘中的一个重要研究内容。目前已经提出了许多用于高效地发现大规模数据库中的关联规则的算法,而对已发现规则的更新及维护问题的研究却较少。文章提出了基于频繁模式树的关联规则增量式更新算法,以处理事务数据库中增加了新的事务数据集后相应关联规则的更新问题,并对其性能进行了分析。  相似文献   

17.
一种实用的关联规则增量式更新算法   总被引:2,自引:0,他引:2  
薛锦  陈原斌 《计算机工程与应用》2003,39(13):212-213,217
关联规则是数据挖掘中的一个重要研究内容。目前已经提出了许多用于高效地发现大规模数据库中的关联规则的算法,而对已发现规则的更新及维护问题的研究却较少。该文提出了一种实用的关联规则增量式更新算法,以处理事务数据库中增加了新的事务数据集后相应的关联规则的更新问题,并对其性能进行了分析。  相似文献   

18.
Database mining: a performance perspective   总被引:12,自引:0,他引:12  
The authors' perspective of database mining as the confluence of machine learning techniques and the performance emphasis of database technology is presented. Three classes of database mining problems involving classification, associations, and sequences are described. It is argued that these problems can be uniformly viewed as requiring discovery of rules embedded in massive amounts of data. A model and some basic operations for the process of rule discovery are described. It is shown how the database mining problems considered map to this model, and how they can be solved by using the basic operations proposed. An example is given of an algorithm for classification obtained by combining the basic rule discovery operations. This algorithm is efficient in discovering classification rules and has accuracy comparable to ID3, one of the best current classifiers  相似文献   

19.
二维云模型及其在预测中的应用   总被引:54,自引:2,他引:54  
杨朝晖  李德毅 《计算机学报》1998,21(11):961-969
本文一维正态云的基础上,进一步提出了二维正态的思想,给出了描述二维云的数字特征和二维云的数学模型,探讨了二维云发生器的构成方法和应用前景,尤其是在基于数据库的知识发现方面,在定性和定量相结合的基础上,为进行多种预测,融随机性与模糊性为一体,表达不确定性,提供更系统,更高层的工具。  相似文献   

20.
基于信息熵的地学空间数据挖掘模型   总被引:16,自引:0,他引:16       下载免费PDF全文
从信息熵的基本概念出发,认为地学空间数据子集划分产生的互信息或熵减源于子集划分,使得各个子集的不确定性或模型糊降低,并且子集之间的差异性增在 最大熵减的子集划分方案代表一定的地学模式和地不规律。以此为基础分别探讨了地学数据属性要素的子集划分产生多维属性关联规则,以 间和时间的子集分割来进行了聚类的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号