首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于条件误分类的决策树剪枝算法   总被引:2,自引:0,他引:2       下载免费PDF全文
徐晶  刘旭敏  关永  董睿 《计算机工程》2010,36(23):50-52
在建立决策树分类模型时,剪枝的方法直接影响分类器的分类效果。通过研究基于误差率的剪枝算法,引入条件误差的概念,改进剪枝标准的评估方法,针对决策树的模型进行优化,提出条件误差剪枝方法,并将其应用于C4.5算法中。实验结果表明,条件误差剪枝方法有效地解决剪枝不充分和过剪枝的情况,在一定程度上提高了准确率。  相似文献   

2.
《软件》2016,(6):83-86
针对我国汽车产业及运输行业的快速发展,但交通安全观念及文明意识明显滞后、不规范驾驶行为多发的问题,利用数据挖掘中的决策树方法,对个人驾驶行为数据进行预处理,分析与驾驶行为相关的主要指标,然后通过C4.5算法构建了决策树知识学习模型,并采用后剪枝法(post-punning)对其进行剪枝,最后利用建立的模型对测试数据集进行评估。研究结果表明:该决策树模型有较高的准确性,为个人驾驶行为分析提供了可行性依据。  相似文献   

3.
针对液压支架电液控制系统故障人工排查方式无法准确定位某些随机故障或个别系统故障的问题,对传统电液控制系统硬件设备进行智能化改造:增加了对系统核心关键部件电气参数的采集传输功能;从大数据采集、传输、处理等方面,阐述了基于Hadoop的大数据决策分析服务平台的构建;设计了大数据故障诊断引擎,以并行算法为核心对各类故障进行识别和诊断,基于MapReduce对C4.5决策树分类算法进行改进,并通过后剪枝技术解决算法容易过度拟合且不稳定的问题,通过多分类器融合技术提高算法准确性。测试结果表明,通过C4.5决策树分类预测引擎提取的电磁先导阀、控制器、压力传感器及行程传感器故障特征曲线存在较大差异性,通过动态比较匹配,依据故障特征曲线变化规律可识别出故障类型。  相似文献   

4.
为满足现代社会对气象预警预报服务的需求,研发了Android系统平台下实时天气预测和异常天气预警系统。根据决策树算法中的C4.5算法,解决天气预警分类问题。该方法通过提取训练样本中最大增益率属性作为属性特征建立决策树,经剪枝后得到天气预警评估的决策树模型,并对此模型进行分析和应用。实验结果表明这种方法在分类评估准确率上具有优势,分类正确率达到85.8%.  相似文献   

5.
决策树是归纳学习和数据挖掘的重要方法,该文对c4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于信息检索结果分类中,实现了检索结果的分层分类处理。  相似文献   

6.
武彤  程辉 《计算机科学》2013,40(Z11):278-280,295
决策树是一种有效的分类方法,但在构建决策树模型的过程中,常常会出现模型过度拟合的现象。利用基于BP神经网络的决策树剪枝算法(BP-Pruning)进行软剪枝处理,然后根据BP-Pruning的一些不足,提出一种改进算法,简称GBP-Pruning算法。该算法通过引入遗传算法来训练BP-Pruning算法模型中的权值和阈值,从而克服了BP-Pruning算法上的不足,最后验证了GBP-Pruning算法的可行性。  相似文献   

7.
介绍智能导学系统的特点,并对决策树C4.5算法的原理进行了阐述,通过C4.5构造了一个学生在线学习效果的评估模型.并利用该模型得到的分类规则进行预测,得到准确性评估表,从而验证决策树算法的灵活性和计算的高效性.  相似文献   

8.
决策树C4.5算法在数据挖掘中的分析及其应用   总被引:5,自引:0,他引:5  
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。分类器是数据挖掘的一种基本方法。本文对分类器的基本概念、C4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于篮球比赛的技术统计分析中,通过对这些数据分析从而得到一些较实用的预测胜负规则。  相似文献   

9.
纳税信用等级评定的实现是需要对大量税收数据进行分析和判定的结果,决策树是进行数据挖掘和分类的常用工具,其中以C4.5算法最为流行。如何应用数据挖掘技术改变纳税信用等级手工评定的现状是当前税务系统税收信息化工作难点之一。文章主要讨论如何应用C4.5算法构造纳税信用等级评定决策树,通过对纳税人涉税数据的采集、预处理、属性选择、决策树生成和剪枝等一系列过程最终生成纳税信用等级评定决策树,并根据生成的决策树实现对纳税人纳税信用等级的判决。  相似文献   

10.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

11.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

12.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

13.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

14.
华文立  胡学刚 《微机发展》2007,17(3):116-118
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高,而分类规则的规模却降低了,因此,该模型具有一定的实用价值。  相似文献   

15.
在利用现有C4.5算法构建期货预测决策树时,往往出现预测准确率低的弊端,导致预测模型很难使用,为此提出了一种面向期货数据的C4.5-[K]算法。该算法的主要思想是通过在C4.5算法中引进新的参数[K],调整属性度量标准信息增益率的取值范围,进而构建决策树预测模型进行预测。通过实验表明,该改进算法能有效提高期货预测能力。  相似文献   

16.
决策树剪枝可以提高决策树的分类准确度。代价复杂度剪枝( CCP)等常用的剪枝算法,都以降低决策树的误判率作为剪枝依据。引入赤池信息准则( AIC)评价决策树的优良性,并提出了基于AIC的决策树剪枝算法,将分类正确概率和复杂度的综合评价作为剪枝依据。通过实例分析,基于AIC的剪枝算法能够得到高分类准确度的决策树,并没有出现过拟合或剪枝不充足等问题。  相似文献   

17.
张坤  穆志纯  常晓辉 《控制工程》2008,15(1):103-106
决策树算法训练速度快、结果易于解释,但在实际应用中其分类精度难以满足业务要求。为了提高决策树算法的精度,基于LogitBoost算法的优点,对决策树C4.5算法进行了改进。在决策树的叶节点上应用LogitBoost算法建立叠加回归模型,得到一种新型的模型树算法-LCTree算法。通过11组UCI数据集试验,经分析比较,证明LCTree算法比其他算法更有效。将该算法应用于电信客户离网预警系统建模,结果表明,该算法可有效地分析客户特征,精确地预测离网客户。  相似文献   

18.
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法,它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤。将C4.5算法应用于高校财务预警系统的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在高校财务预警调查数据分析中具有广泛的应用前景。  相似文献   

19.
针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。  相似文献   

20.
一种改进的决策树后剪枝算法磁   总被引:1,自引:0,他引:1  
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号