共查询到18条相似文献,搜索用时 46 毫秒
1.
杜丽英 《计算机光盘软件与应用》2014,(23):134-134
决策树技术是数据挖掘的重要方法,广泛应用于客户分类和预测。本文对决策树的C4.5算法的基本思想和特点进行了介绍,并结合实例说明了构造决策树的具体实现过程。 相似文献
2.
C4.5算法在选择分裂属性时只考虑了每个条件属性和决策属性之间的关系,而没有考虑到条件属性间的相关性,直接影响构建树的准确率。提出一种基于Kendall和谐系数的C4.5决策树优化算法,用于解决条件属性之间相关性的问题,提高算法属性选择的准确性。在引入系数的基础上运用等价无穷小原理对计算公式进行简化,提高了算法的效率。对改进后的C4.5算法和传统的算法进行仿真实验,结果表明,改进的C4.5算法在准确度和效率上都有较大提高。 相似文献
3.
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。 相似文献
4.
税收信用分类管理在税务系统中起着重要作用,应用分类算法解决税收信用等级手工评定问题是当前税务系统的难题之一.决策树算法是分类算法中一类重要算法,其中以C4.5算法最为经典,但该算法在连续属性离散化方面花费时间成本较多.该文在C4.5连续属性离散化算法基础上引入基于经验值的窗口分割技术,在保证生成决策树准确率的前提下,有效的提高了算法运行效率.应用改进算法构造税收信用等级判定决策树,并根据构造的决策树实现对纳税人税收信用等级的自动判决. 相似文献
5.
提出了基于决策树C4.5算法的面向对象分类方法.首先利用多尺度分割方法对遥感影像进行分割;然后提取对象的特征信息,包括光谱特征、纹理特征、形状特征、图层特征等,对提取的众多的对象特征,利用决策树C4.5算法对其进行知识挖掘,自动建立分类规则;最后利用建立的分类规则,将C4.5算法作为一种分类器对分割后的遥感影像进行分类,并以南充市城市土地利用为例进行了分类实验.实验验证了该方法的可行性.实验结果表明利用决策树C4.5算法建立的分类规则准确率高,利用该分类规则进行的面向对象分类效果较好. 相似文献
6.
7.
在基于C4.5算法的网络流量分类方法中,网络流量数据量的海量性及其特征的多样性使得决策树的构建速度、分类速度成为评价网络流量分类器的重要标准。在原C4.5算法的基础上提出一种改进的信息熵的计算方法,通过减少计算函数的复杂度,提高决策树的构建速度。实验表明,基于改进后算法的分类器在达到原有分类准确率的同时,极大地缩短了决策树的构成时间。 相似文献
8.
9.
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。 相似文献
10.
《计算机应用与软件》2018,(3)
针对C4.5决策树算法在构造决策树时只考虑属性对类的影响,忽视了属性间相互影响的问题。提出一种改进的决策树算法DTEAT(Decision Tree with Elimination of Attribute Dependency),该算法通过计算属性间的信息增益率来量化属性间相互影响的程度(依赖度)。在构造决策树的过程中,计算待分裂属性与其他每个属性的依赖度,将其均值作为选择分裂属性时的主要度量标准之一,从而消除属性间的依赖。实验结果表明,改进后的算法在UCI的样本数据集上的分类准确率有了显著的提升,最高提升了7个百分点。 相似文献
11.
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。 相似文献
12.
目前物流企业中积累了大量的客户历史数据,为了有效利用这些数据,使用数据挖掘方法对客户进行分类管理和服务是CRM中非常重要的一方面。而决策树是进行分类分析与数据挖掘的常用方法。研究了运用C4.5算法对煤炭物流客户信息构造决策树,并把提取到的规则应用到公路煤炭物流公司的客户关系管理中,结果证明具有较好的应用价值。 相似文献
13.
一种健壮有效的决策树改进模型 总被引:3,自引:0,他引:3
刘鹏 《计算机工程与应用》2005,41(33):172-175
论文提出了一种健壮有效的决策树改进模型R-C4.5及其简化版本。该决策树模型基于著名的C4.5决策树模型,但在属性的选取和分枝策略上进行了改进。对每一个属性计算对应样本子集的熵和样本子集熵的平均值,并将样本子集熵的值不小于平均值的样本子集进行合并,形成一个临时的复合样本子集,即合并分类效果较差的分枝。利用临时复合样本子集的熵值和未合并样本子集的熵值计算该结点的修正信息增益,并选择具有最高修正信息增益的属性作为当前结点的测试属性。其分枝对应于未合并样本子集和复合样本子集。该模型的简化版本在数据预处理阶段完成。R-C4.5决策树模型在提高测试属性选择度量的可解释性、减少空枝和无意义分枝,及过度拟合等方面有了显著的提高。 相似文献
14.
徐邵兵 《数字社区&智能家居》2009,(2)
纳税信用等级评定的实现是需要对大量税收数据进行分析和判定的结果,决策树是进行数据挖掘和分类的常用工具,其中以C4.5算法最为流行。如何应用数据挖掘技术改变纳税信用等级手工评定的现状是当前税务系统税收信息化工作难点之一。文章主要讨论如何应用C4.5算法构造纳税信用等级评定决策树,通过对纳税人涉税数据的采集、预处理、属性选择、决策树生成和剪枝等一系列过程最终生成纳税信用等级评定决策树,并根据生成的决策树实现对纳税人纳税信用等级的判决。 相似文献
15.
知识发现是数字油藏的重要内容,也是建设数字油藏的主要目的之一。针对油气田开发的需要和油藏数据体的特点,本文综合利用数据清洗、数据挖掘、知识评估、知识解释、可视化等技术,提出了在数字油藏中进行知识发现的一种新思路,并用实例分析说明其实现方法,即以决策树技术分析油气田开发中采收率的影响因素为倒,通过连续属性值的离散化处理和决策树的构建、剪枝以及知识评估和解释,从而达到准确、快速地挖掘出油藏数据库、油藏数据仓库和其它油藏数据体中大量有意义的规则、模式等知识。 相似文献
16.
17.
决策树C4.5算法在天然气输差分析中的应用 总被引:4,自引:0,他引:4
分类器是数据挖掘的一种基本方法。文章首先介绍了分类器的基本概念和决策树构建思路,然后讲述了在天然气信息数据库的基础上如何建立决策树分类器(用Java语言)和寻找影响输差较大的因素,从而得出一些实用的预测输差的规则。 相似文献
18.
主成分分析(Principal Component Analysis,PCA)可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因素。文章将主成分分析和决策树C4.5算法相结合,提出一种心脏病诊断预测的新方法,该方法采用PCA方法对影响心脏病诊断的众多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用C4.5算法建立心脏病诊断的预测模型。经实验证明有效的提高了C4.5算法的分类正确率,提高了心脏病诊断的正确率。 相似文献