首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
决策树C4.5算法在数据挖掘中的分析及其应用   总被引:5,自引:0,他引:5  
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。分类器是数据挖掘的一种基本方法。本文对分类器的基本概念、C4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于篮球比赛的技术统计分析中,通过对这些数据分析从而得到一些较实用的预测胜负规则。  相似文献   

2.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

3.
滑坡灾害预测受多种因素影响,其中降雨等不确定因素存在难以获取数据及有效处理等难题,为提高滑坡危险性预测的准确率,根据滑坡灾害发生相关理论及决策树分类原理,提出了基于不确定决策树算法在滑坡危险性预测的方法.该方法引入不确定因子降雨,并将不确定因子和其余评价因子一起,根据不确定决策树算法理论构建出不确定决策树,建立滑坡危险性等级预测模型,并用延安市宝塔区的实例进行验证.实验结果表明,该预测方法取得了较高的总体精度和有效精度,达到了滑坡预测的精度标准,且两项预测精度均高于传统C4.5决策树方法.  相似文献   

4.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

5.
介绍智能导学系统的特点,并对决策树C4.5算法的原理进行了阐述,通过C4.5构造了一个学生在线学习效果的评估模型.并利用该模型得到的分类规则进行预测,得到准确性评估表,从而验证决策树算法的灵活性和计算的高效性.  相似文献   

6.
王伟  李磊  张志鸿 《计算机科学》2015,42(12):268-271, 287
针对有噪声的高维数据引起决策树预测准确率下降的问题,利用容噪主成分分析(Noise-free Principal Component Anlysis,NFPCA)算法思想对C4.5算法改进而形成NFPCA-in-C4.5算法。该算法一方面将高维数据噪声控制问题转化为拟合数据特征与控制平滑度相结合的最优化问题,从而获得主成分空间;另一方面在决策树自顶向下构建新节点的过程中,再将主成分空间恢复到原始数据空间来避免降维过程中属性特征信息永久消失。实验结果表明NFPCA-in-C4.5算法兼具降维和容噪功能,避免了降维中由特征信息损失和噪声残留造成的预测模型准确率大幅降低的问题。  相似文献   

7.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

8.
主成分分析(Principal Component Analysis,PCA)可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因素。文章将主成分分析和决策树C4.5算法相结合,提出一种心脏病诊断预测的新方法,该方法采用PCA方法对影响心脏病诊断的众多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用C4.5算法建立心脏病诊断的预测模型。经实验证明有效的提高了C4.5算法的分类正确率,提高了心脏病诊断的正确率。  相似文献   

9.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

10.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

11.
为了进一步提升原油期货价格预测的精准性,本文基于CEEMDAN分解算法和ELM极限学习机模型,利用PSO粒子群优化算法对机器学习模型进行参数寻优,进而构建了CEEMDAN-PSO-ELM模型用于原油期货价格预测.先基于CEEMDAN算法对原始价格序列进行分解,然后利用Lempel-Ziv复杂度指数对分量进行重构,得到高频、中频和低频重构分量,再采用PSO-ELM模型对每个重构分量进行预测,利用PACF系数选取模型输入变量,最终加总集成各分量预测结果.实证结果表明,与其他15种基准模型相比,CEEMDAN-PSO-ELM模型的预测性能最佳,MCS检验和DM检验也进一步证实了该模型的稳健性.  相似文献   

12.
汪辉  侯传宇 《数字社区&智能家居》2011,(15):3572-3574,3581
ID3算法和C4.5算法是经典的决策树算法,通过对ID3算法和C4.5算法的数据结构、算法描述和分裂属性选取等方面进行比较,为其他研究者提供参考.  相似文献   

13.
神经网络集成方法具有比单个神经网络更强的泛化能力,却因为其黑箱性而难以理解;决策树算法因为分类结果显示为树型结构而具有良好的可理解性,泛化能力却比不上神经网络集成。该文将这两种算法相结合,提出一种决策树的构造算法:使用神经网络集成来预处理训练样本,使用C4.5算法处理预处理后的样本并生成决策树。该文在UCI数据上比较了神经网络集成方法、决策树C4.5算法和该文算法,实验表明:该算法具有神经网络集成方法的强泛化能力的优点,其泛化能力明显优于C4.5算法;该算法的最终结果昆示为决策树,显然具有良好的可理解性。  相似文献   

14.
建立了一种基于聚类分析与决策树分析相结合的服务订制预测模型,阐述了聚类分析K-means算法、决策树算法C5.0算法原理、建模流程的设计,将模型应用于某地区用户对有线电视交互服务的订制意愿预测,最终确定高响应率客户群.实验证明.该模型相对于仅通过决策树进行预测能更大程度地提高分类精度,并能更有效地识别出高响应率客户群.  相似文献   

15.
针对神经网络和决策树方法在算法上的本质联系和互补优势,将C4.5决策树提取规则的基于知识的神经网络(knowledgebased neural network,KBNN)用于出行方式预测。对居民通勤出行方式选择数据的分析表明,KBNN相比于决策树方法、普通前馈神经网络和多项Logit模型(MNL)有更高的预测精度,方法不仅提高了网络的可解释性,且易于构造、收敛速度更快,实用性较强,为出行方式选择预测提供了新的思路。  相似文献   

16.
建立了基于混沌理论下混合型PSO-BP模型,并运用此模型对纽约商品交易市场的原油期货价格数据进行了预测,并将预测结果与BP神经网络的预测结果进行了对比。结果表明混沌理论下混合型PSO-BP模型比单纯的BP模型具有较高的拟合度以及预测精度。  相似文献   

17.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号