首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

2.
阐述了决策树分类技术和R-C4.5决策树模型。以某高职院校近几届毕业生的个人信息、教育信息和就业信息数据为研究对象,对实验数据进行数据预处理,运用R-C4.5决策树分类技术进行数据挖掘,挖掘出影响高职毕业生就业质量的相关因素,为政府和学校提高就业质量的各类措施和改革提供了决策依据。  相似文献   

3.
阐述了决策树分类技术和R-C4.5决策树模型。以某高职院校近几届毕业生的个人信息、教育信息和就业信息数据为研究对象,对实验数据进行数据预处理,运用R-C4.5决策树分类技术进行数据挖掘,挖掘出影响高职毕业生就业质量的相关因素,为政府和学校提高就业质量的各类措施和改革提供了决策依据。  相似文献   

4.
提出了基于决策树C4.5算法的面向对象分类方法.首先利用多尺度分割方法对遥感影像进行分割;然后提取对象的特征信息,包括光谱特征、纹理特征、形状特征、图层特征等,对提取的众多的对象特征,利用决策树C4.5算法对其进行知识挖掘,自动建立分类规则;最后利用建立的分类规则,将C4.5算法作为一种分类器对分割后的遥感影像进行分类,并以南充市城市土地利用为例进行了分类实验.实验验证了该方法的可行性.实验结果表明利用决策树C4.5算法建立的分类规则准确率高,利用该分类规则进行的面向对象分类效果较好.  相似文献   

5.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

6.
隐私保护的分布式决策树分类算法的研究*   总被引:1,自引:0,他引:1  
针对分布式决策树构造过程中的隐私保护问题,引入安全多方计算方法设计了可以保护隐私的分布式C4.5决策树分类算法。该算法适用于数据集垂直分布和水平分布两种情况,同时提出了一种新的隐私保护程度的度量方法。实验结果证明设计的隐私保护分布式决策树分类算法不仅很好地保护了原始数据不泄露,同时保持了较高的分类精度。  相似文献   

7.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

8.
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

9.
基于决策树的流量分类方法   总被引:4,自引:1,他引:3  
徐鹏  林森  刘琼 《计算机应用研究》2008,25(8):2484-2487
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。  相似文献   

10.
决策树技术是数据挖掘的重要方法,广泛应用于客户分类和预测。本文对决策树的C4.5算法的基本思想和特点进行了介绍,并结合实例说明了构造决策树的具体实现过程。  相似文献   

11.
C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率.  相似文献   

12.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

13.
郭鹏  葛玮 《计算机工程》2009,35(24):75-77
提出一种针对客户离网问题的改进决策树分类算法——M-AdaBoost级联决策树。采用级联式的思想构造多个基于AdaBoost决策树分类器,通过设定子分类器的判决信息,组合成级联式决策树。实验结果表明,该方法相对于单一的C4.5决策树、传统的AdaBoost决策树以及随机森林具有更好的分类效果。  相似文献   

14.
现有的决策树ID3、C4.5算法是一种快速有效的经典分类算法,但其有一个不足就是无回溯的自顶向下分析.造成所得的结果往往更多的是局部最优解而不一定是全局最优解。利用挖掘类比较技术,自底向上地分析描述,完善C4.5的分类算法,并实现自顶向下和自底向上共同分析,逼近全局最优解,取得了较好的效果。  相似文献   

15.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

16.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

17.
针对决策树C4.5算法处理小规模缺失数据以及二义性数据时不稳定、效率低,以及在分裂节点时条件属性之间关系的问题,提出了一种在决策树C4.5算法与朴素贝叶斯算法结合的基础上,引入Fleiss’ Kappa系数的改进算法,从而解决了C4.5算法在处理小规模缺失数据、二义数据效率低以及条件属性之间相关性的问题。通过理论分析和在标准UCI数据集实验结果表明,该算法在牺牲一定执行效率的基础上,分类精度得到明显的提高。  相似文献   

18.
文理分科是高中生面临的第一次重大选择,选文科还是理科,很多同学感到两头难。针对这种情况,通过对比决策树分类算法中的ID3和C4.5算法,提出了基于影响因子的新的分类算法,构造了"文理分科分类器"。实验证明该方法在文理分科问题上比传统的ID3和C4.5算法有更高的分类精确度,该分类器可以辅助学生和家长进行文理科的选择,降低选择的错误性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号