共查询到20条相似文献,搜索用时 15 毫秒
1.
决策树中基于基尼指数的属性分裂方法 总被引:2,自引:0,他引:2
决策树是数据挖掘中的一个重要算法。文中首先介绍了决策树的生成思想,和生成过程中关于多值属性的分离问题。基尼指数是多值属性分离的一种方法,文中详细介绍了基尼指数作为一种不纯度分裂方法的原理,并通过一个分别用两种方式进行基尼分裂的实例。最后参阅国内外文献将基尼指数与其他一些算法如信息增益、χ2统计作了比较来说明其在多值属性分裂时的一些优点和缺点。 相似文献
2.
3.
决策树算法的研究及优化 总被引:16,自引:3,他引:16
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法,但构造最优决策树是一个NP困难问题。文中首先介绍了ID3算法的基本思想,然后讨论了决策树算法中的难点问题,针对ID3算法中所存在的不足,提出了一种利用优化法的思想来改进信息增益的算法,并且与ID3算法进行了实验对比。通过实验表明,这种方法从树的规模和分类精度都优于许多决策树算法,使决策效率明显提高。 相似文献
4.
基于数据挖掘的决策树方法分析 总被引:1,自引:0,他引:1
决策树方法因其简单、直观、准确率高等特点在数据挖掘及数据分析中得到了广泛的应用。在介绍了决策树方法的一般知识后,深入分析了决策树的生成算法与模型,并对决策树的剪枝过程进行了探讨。 相似文献
5.
6.
基于信息熵的决策属性分类挖掘算法及应用 总被引:10,自引:0,他引:10
在利用判定树进行分类挖掘时,需事先知道属性的分类。对不具体的或未知的属性分类,利用“高类聚、低耦合”原理对属性进行最优分类。在属性分类的基础上,利用基于信息熵的属性期望信息及对应的信息增益理论选择最佳分类决策属性,并按最佳分类决策属性引出分枝形成判定树。该文对属性的最优分类理论及算法进行了描述,并讨论了选择最佳决策属性构造判定树的算法,结合具体应用实例进行了验证并构造了判定树。 相似文献
7.
V. Estruch C. Ferri J. Hernndez-Orallo M.J. Ramírez-Quintana 《Electronic Notes in Theoretical Computer Science》2006,157(2):35
In Web classification, web pages are assigned to pre-defined categories mainly according to their content (content mining). However, the structure of the web site might provide extra information about their category (structure mining). Traditionally, both approaches have been applied separately, or are dealt with techniques that do not generate a model, such as Bayesian techniques. Unfortunately, in some classification contexts, a comprehensible model becomes crucial. Thus, it would be interesting to apply rule-based techniques (rule learning, decision tree learning) for the web categorisation task. In this paper we outline how our general-purpose learning algorithm, the so called distance based decision tree learning algorithm (DBDT), could be used in web categorisation scenarios. This algorithm differs from traditional ones in the sense that the splitting criterion is defined by means of metric conditions (“is nearer than”). This change allows decision trees to handle structured attributes (lists, graphs, sets, etc.) along with the well-known nominal and numerical attributes. Generally speaking, these structured attributes will be employed to represent the content and the structure of the web-site. 相似文献
8.
基于信息熵的决策树算法实现 总被引:5,自引:0,他引:5
由数据挖掘中的分类技术引出ID3算法并对其进行了简要的概括,探讨基于信息增益的度量选择测试属性方法。以MFC Class Wizard的过滤记录集取代以往记录集,研制C++实现最优属性选择和ID3算法。 相似文献
9.
数据挖掘中决策树的探讨 总被引:29,自引:1,他引:29
决策树方法是数据挖掘中的一个重要内容。该文叙述了决策树的构建过程,并指出了其技术难点及构建算法,最后,通过一个实例给出了该算法选取决策属性的详细过程。 相似文献
10.
分类问题是数据挖掘和机器学习中的一个核心问题。为了得到最大程度的分类准确率,决策树分类过程中,非常关键的是结点分裂属性的选择。常见的分裂结点属性选择方法可以分为信息熵方法、GINI系数方法等。分析了目前常见的选择分裂属性方法——基于信息熵方法的优、缺点,提出了基于卡方检验的决策树分裂属性的选择方法,用真实例子和设置模拟实验说明了文中算法的优越性。实验结果显示文中算法在分类错误率方面好于以信息熵为基础的方法。 相似文献
11.
有序分类是现实生活中广泛存在的一种分类问题。基于排序熵的有序决策树算法是处理有序分类问题的重要方法之一,这种方法是以排序互信息作为启发式来构建有序决策树。基于这项工作,通过引入模糊有序熵,并以模糊有序互信息作为启发式构建模糊有序决策树,对有序决策树进行了扩展。这两种算法在实际应用中各有自己的优劣之处,从四个方面对这两种算法进行了详细的比较,并指出了这两种算法的异同及优缺点。 相似文献
12.
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。 相似文献
13.
提出一种基于两种群协同进化的分类判定树构造算法,该方法充分利用协同进化的强搜索能力和渐进学习等特点,通过设计两个协同进化的种群:一个表示选择的属性子集,另一个表示如何构造判定树,保证在搜索曩优判定树的过程中同时对属性子集选择、判定树的构造进行综合优化,最终获得一个较好的分类判定树。作为实验验证,我们把新算法应用到一个困难的真实问题一胸癌诊断,结果表明了新算法的有效性。和其它算法的实验结果比较,新的分类方法比C4.5和文[1]方法构造出更好的判定树,即去除了多余的属性、具有更高的分类精度。 相似文献
14.
15.
16.
Zijian Zheng 《Machine Learning》2000,40(1):35-75
While many constructive induction algorithms focus on generating new binary attributes, this paper explores novel methods of constructing nominal and numeric attributes. We propose a new constructive operator, X-of-N. An X-of-N representation is a set containing one or more attribute-value pairs. For a given instance, the value of an X-of-N representation corresponds to the number of its attribute-value pairs that are true of the instance. A single X-of-N representation can directly and simply represent any concept that can be represented by a single conjunctive, a single disjunctive, or a single M-of-N representation commonly used for constructive induction, and the reverse is not true. In this paper, we describe a constructive decision tree learning algorithm, called XofN. When building decision trees, this algorithm creates one X-of-N representation, either as a nominal attribute or as a numeric attribute, at each decision node. The construction of X-of-N representations is carried out by greedily searching the space defined by all the attribute-value pairs of a domain. Experimental results reveal that constructing X-of-N attributes can significantly improve the performance of decision tree learning in both artificial and natural domains in terms of higher prediction accuracy and lower theory complexity. The results also show the performance advantages of constructing X-of-N attributes over constructing conjunctive, disjunctive, or M-of-N representations for decision tree learning. 相似文献
17.
数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。其中,判定树以其出色的数据分析效率、直观易懂的结果展示等特点,倍受广大用户的关注。本文将讨论数据挖掘中的判定树在学生成绩分析的应用。 相似文献
18.
一种以相关性确定条件属性的决策树 总被引:5,自引:1,他引:5
决策树是数据挖掘中的一种重要的分类器。文章在介绍了一些典型的决策树分类算法的基础上,研究了一种相关性度量的决策树分类器。其主要思想是在建立决策树过程中采用属性相关性度量来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,避免了使用信息熵带来的不当划分,详细描述了算法的执行过程以及正确性证明和时间复杂性分析。 相似文献
19.
20.
决策树算法研究综述 总被引:2,自引:0,他引:2
郭玉滨 《数字社区&智能家居》2006,(1):155-155,160
简要回顾了数据挖掘的应用背景和常用的数据挖掘方法,重点研究了数据挖掘方法中的决策树算法,并对其主要成就进行评述.提出今后开展研究的建议: 相似文献