首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
具有高可理解性的二分决策树生成算法研究   总被引:3,自引:0,他引:3  
蒋艳凰  杨学军  赵强利 《软件学报》2003,14(12):1996-2005
二分离散化是决策树生成中处理连续属性最常用的方法,对于连续属性较多的问题,生成的决策树庞大,知识表示难以理解.针对两类分类问题,提出一种基于属性变换的多区间离散化方法--RCAT,该方法首先将连续属性转化为某类别的概率属性,此概率属性的二分法结果对应于原连续属性的多区间划分,然后对这些区间的边缘进行优化,获得原连续属性的信息熵增益,最后采用悲观剪枝与无损合并剪枝技术对RCAT决策树进行简化.对多个领域的数据集进行实验,结果表明:对比二分离散化,RCAT算法的执行效率高,生成的决策树在保持分类精度的同时,树的规模小,可理解性强.  相似文献   

2.
一种新的决策树归纳学习算法   总被引:79,自引:1,他引:79  
本文不示例学习的重要分枝--决策树归纳学习进行了分析探讨,从示例学习最优化的角度分析了决策树归纳学习的优化原则,指出了以往的以ID3为代表的归纳学习算法所固有的缺陷,并提出了一种新的基于概率的决策树归纳学习算法PID,PID在扩展属性的选择上仍采用基于信息增益率的方法,但在树上的扩展过程中,采用属性聚类的方法进行树的支合并。PID得到的决策树在树的规模和分类精度上都优于ID3。  相似文献   

3.
决策树的优化算法   总被引:78,自引:1,他引:78  
刘小虎  李生 《软件学报》1998,9(10):797-800
决策树的优化是决策树学习算法中十分重要的分支.以ID3为基础,提出了改进的优化算法.每当选择一个新的属性时,算法不是仅仅考虑该属性带来的信息增益,而是考虑到选择该属性后继续选择的属性带来的信息增益,即同时考虑树的两层结点.提出的改进算法的时间复杂性与ID3相同,对于逻辑表达式的归纳,改进算法明显优于ID3.  相似文献   

4.
郭华平  范明 《计算机科学》2013,40(11):236-241
基于决策树的组合分类器可以看作一个森林。提出了一种森林剪枝算法来对森林进行剪枝,以简化组合分类器的结构,并提高其分类准确率。传统的决策树剪枝只考虑剪枝对单棵决策树的影响,而森林剪枝则把所有决策树看作一个整体,更加关注剪枝对组合分类器的性能影响。为了确定森林的哪些分枝可以被剪枝,提出一种称作贡献增益的度量。子树的贡献增益不仅与它所在的决策树的分类准确率有关,而且也与诸决策树的差异性有关,因此它较好地度量了一个结点扩展为一棵子树对组合分类器分类准确率的提高程度。借助于贡献增益,设计了一种基于结点贡献增益的森林剪枝算法FTCG。实验表明,无论森林是基于某种算法(如bagging)构建的还是某种组合分类器选择算法(如EPIC[1])的结果,无论每棵决策树是未剪枝的还是剪枝后的,FTCG都能进一步降低每棵决策树的规模,并且在大部分数据集上显著提高了剪枝后的组合分类器的分类准确率。  相似文献   

5.
乔梅  韩文秀 《计算机应用》2005,25(5):989-991
噪音数据是影响决策树训练效率和结果集质量的重要因素。目前的树剪枝方法不能消除噪音数据对选择决策树测试节点属性的影响。为改变这种状况,基于变精度Rough集(VPRS)模型,提出了一个在决策树算法中处理噪音数据的新方法---预剪枝法,该方法在进行选择属性的计算之前基于变精度正区域求取属性修正的分类模式,来消除噪音数据的对选择属性以及生成叶节点的影响。利用该方法对基本ID3决策树算法进行了改进。分析和实验表明,与先剪枝方法相比,该方法能进一步减小决策树的规模和训练时间。  相似文献   

6.
孙娟  王熙照 《计算机工程》2006,32(12):210-211,231
决策树归纳学习算法是机器学习领域中解决分类问题的最有效工具之一。由于决策树算法自身的缺陷了,因此需要进行相应的简化来提高预测精度。模糊决策树算法是对决策树算法的一种改进,它更加接近人的思维方式。文章通过实验分析了模糊决策树、规则简化与模糊规则简化;模糊决策树与模糊预剪枝算法的异同,对决策树的大小、算法的训练准确率与测试准确率进行比较,分析了模糊决策树的性能,为改进该算法提供了一些有益的线索。  相似文献   

7.
决策树简化(剪切)方法综述   总被引:1,自引:0,他引:1  
树的简化是决策树归纳学习中关键的部分。论文是决策树简化方法的一个综述,包括预剪枝、后剪枝和其它方法。文中叙述了多种著名的剪枝方法,各种方法的优缺点及对其的改进和变型。  相似文献   

8.
房立  黄泽宇 《微机发展》2006,16(8):106-109
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4.5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。  相似文献   

9.
一种基于数据继承关系的C4.5分类优化算法   总被引:1,自引:0,他引:1  
传统C4.5分类模型在选择属性分支利用信息增益的方法选择测试属性,相比其他树分类模型在速度和预测精确度上都有较理想的结果.但是C4.5分类模型在一个测试属性展开分支的时候需要对属性的每个值产生一个分支,这导致了决策树规模的增大,不利于分类模型泛化能力和健壮性.而在现实世界中存在着大量具有本体关系上的层次的继承关系的数据,例如体现在具体属性上可能是数据描述的精度或者抽象程度的不同.结合了数据的这一个特点和C4.5分类模型在选择属性分支利用信息增益的方法,在自动构造的继承关系树引导下构造了一个C4.5的改进模型,尽可能使训练样本在数据的更高的抽象程度作出分裂,以产生更少的分支.在UCI数据集上检验了该分类模型,实验结果表明该模型有效地提高健壮性上,在预测精确度和可理解性上的表现也比较好.  相似文献   

10.
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4+5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。  相似文献   

11.
ID3算法是数据挖掘中经典的分类算法。它往往选择取值较多的属性进行分裂训练集,而选取的这个属性并非是最优的。针对这一缺点,提出了一种改进的ID3算法。通过改进信息增益公式,选取最优的划分属性,对采集的数据进行分类处理,建立决策树,这样的决策树包括较少的分支,并且树的高度较低。改进后的算法结合模式匹配算法来检测是否有入侵行为发生。通过实验验证了该算法减少了误报率和漏报率,并且比修改前在速度上有所提高,空间消耗有所减少。  相似文献   

12.
决策树在客户价值分析中的应用   总被引:1,自引:0,他引:1  
决策树算法是数据挖掘的一个活跃的研究领域。文中介绍了一种决策树的构建方法及其步骤。在训练样本的基础上,通过不断的计算选择比较合适的属性作为树根、子树根,并且不断重复,基于前向剪枝方法,最终建立了经过优化的决策树。经过Weka系统验证后,决策树和建立的相应规则性能良好。最后将决策树应用于客户价值分析中,并得到了一定的实用价值。  相似文献   

13.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

14.
一种基于神经网络集成的决策树构造方法   总被引:1,自引:1,他引:0  
神经网络集成方法具有比单个神经网络更强的泛化能力,却因为其黑箱性而难以理解;决策树算法因为分类结果显示为树型结构而具有良好的可理解性,泛化能力却比不上神经网络集成。该文将这两种算法相结合,提出一种决策树的构造算法:使用神经网络集成来预处理训练样本,使用C4.5算法处理预处理后的样本并生成决策树。该文在UCI数据上比较了神经网络集成方法、决策树C4.5算法和该文算法,实验表明:该算法具有神经网络集成方法的强泛化能力的优点,其泛化能力明显优于C4.5算法;该算法的最终结果昆示为决策树,显然具有良好的可理解性。  相似文献   

15.
两种决策树的事前修剪算法   总被引:2,自引:0,他引:2  
屈俊峰  朱莉  胡斌 《计算机应用》2006,26(3):670-0672
修剪决策树可以在决策树生成时或生成后,前者称为事前修剪。决策树上的每一个节点对应着一个样例集,通过分析样例集中样例的个数或者样例集的纯度,提出了基于节点支持度的事前修剪算法PDTBS和基于节点纯度的事前修剪算法PDTBP。为了达到修剪的目的,PDTBS阻止小样例集节点的扩展,PDTBP阻止高纯度样例集节点的扩展。分析表明这两个算法的时间复杂度均呈线性,最后使用UCI的数据实验表明:算法PDTBS,PDTBP可以在保证分类精度损失极小的条件下大幅度地修剪决策树。  相似文献   

16.
ID3算法及其改进   总被引:1,自引:0,他引:1  
文章对ID3算法的基本概念和原理进行了相应的详细阐述以及解释说明,并针对ID3算法倾向于取值较多的属性的缺点,引进信息增益率对ID3算法作了改进,并通过实验对改进前后的算法进行了比较,实验表明,改进后的算法行之有效。  相似文献   

17.
设A是一训练集,B是A的一个子集,B是选择A中部分有代表性的示例而生成的。得到了这样一个结论,即对于适当选取的B,由B训练出的决策树其泛化精度优于由A训练出的决策树的泛化精度。进一步,设计实现了一种如何从A中挑选有代表性的示例来生成B的算法,并从数据分布和信息熵理论角度分析了该算法的设计原理。  相似文献   

18.
一种基于ID3的前剪枝改进算法   总被引:2,自引:0,他引:2  
ID3算法作为一种流行的决策树算法,因为其算法简单、易实现而被广泛使用。但其生成的树结构往往过于庞大,复杂,也影响了算法效率。为了优化树的结构,提高树生成的效率,避免“过拟合”效应,本文将每个分类属性分类后的效果也考虑在内,即,若分类效果达到某个预定的标准则终止那条分支继续分类,并引入了最大支持度的概念,采用了前剪枝策略,对ID3算法进行了改进。实验结果显示,改进算法的确能够使生成的决策树在保证精度的基础上更加精简。  相似文献   

19.
基于遗传算法的多属性模糊决策树的优化   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树是数据挖掘中的一种高效方法,但是当训练数据的属性很多时,构建的决策树的规模会随属性个数增加而指数级增长,进而会产生海量的规则。针对该问题,提出了一种基于遗传算法的优化方法。首先根据信息增益利用轮盘赌方法选取若干组属性,构建多棵决策树,然后利用遗传算法对多棵决策树进行组合,并最终形成规则集。最后给出了实验结果,证明了该方法的可行性和有效性。  相似文献   

20.
区间值属性决策树学习算法*   总被引:8,自引:0,他引:8  
王熙照  洪家荣 《软件学报》1998,9(8):637-640
该文提出了一种区间值属性决策树的学习算法.区间值属性的值域不同于离散情况下的无序集和连续情况下的全序集,而是一种半序集.作为ID3算法在区间值意义下的推广,算法通过一种分割信息熵的极小化来选取扩展属性.通过非平稳点分析,减少了分割信息熵的计算次数,使算法的效率得到了提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号