共查询到18条相似文献,搜索用时 78 毫秒
1.
杜丽英 《计算机光盘软件与应用》2014,(23):134-134
决策树技术是数据挖掘的重要方法,广泛应用于客户分类和预测。本文对决策树的C4.5算法的基本思想和特点进行了介绍,并结合实例说明了构造决策树的具体实现过程。 相似文献
2.
C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率. 相似文献
3.
4.
本文详细论述了C4.5算法的原理及计算过程,并运用C4.5算法对某高校2011级电子信息工程专业的学生成绩数据进行分析。首先确定数据挖掘对象,进行样本采集,选择影响成绩的重要属性;然后运用C4.5算法对成绩数据进行分析挖掘从而生成决策树,为今后的教学工作提供指导,以此提高学生的成绩。 相似文献
5.
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。 相似文献
6.
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。 相似文献
7.
《计算机应用与软件》2018,(3)
针对C4.5决策树算法在构造决策树时只考虑属性对类的影响,忽视了属性间相互影响的问题。提出一种改进的决策树算法DTEAT(Decision Tree with Elimination of Attribute Dependency),该算法通过计算属性间的信息增益率来量化属性间相互影响的程度(依赖度)。在构造决策树的过程中,计算待分裂属性与其他每个属性的依赖度,将其均值作为选择分裂属性时的主要度量标准之一,从而消除属性间的依赖。实验结果表明,改进后的算法在UCI的样本数据集上的分类准确率有了显著的提升,最高提升了7个百分点。 相似文献
8.
9.
10.
在利用现有C4.5算法构建期货预测决策树时,往往出现预测准确率低的弊端,导致预测模型很难使用,为此提出了一种面向期货数据的C4.5-[K]算法。该算法的主要思想是通过在C4.5算法中引进新的参数[K],调整属性度量标准信息增益率的取值范围,进而构建决策树预测模型进行预测。通过实验表明,该改进算法能有效提高期货预测能力。 相似文献
11.
集成学习逐渐成为机器学习的研究热点。针对决策树C4.5集成算法中基分类器多样性差的问题,提出了修正矩阵Correction Matrix –C4.5(CMC4.5)集成学习算法,并将其应用于图像自动标注。算法首先对特征子集进行多样性处理,然后通过构造修正矩阵依次得到基分类器C4.5全新训练数据集,实现训练数据集之间的多样性和属性特征完整性,完成集成算法。对比实验表明,CMC4.5集成学习方法大大提高了分类准确率。将CMC4.5集成学习与图像标注相结合,实现了基于CMC4.5的图像自动标注。 相似文献
12.
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。 相似文献
13.
14.
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。 相似文献
15.
16.
目前移动数据流量已占全球IP流量的47%,其中WiFi流量已占整个移动数据流量的90%以上。WiFi环境下移动终端流量的识别对互联网流量管理具有重要意义。传统基于HTTP用户代理(User Agent,UA)的流量识别方法存在识别率不高的问题。分析了WiFi环境下移动终端连接持续时间、数据包大小、有效载荷大小等流量特征,提出一种WiFi环境下基于C4.5决策树的手持终端设备流量识别方法WF-C4.5,通过计算各属性值的信息增益率构建决策树模型,实现手持终端与非手持终端流量的区分。实验表明,相比UA方法65%的准确率,所提方法的准确率高达95%。 相似文献
17.
18.
C4.5算法在国防生素质分析中的应用 总被引:1,自引:0,他引:1
国防生素质直接影响到依托培养的质量,目前选培办对国防生素质的分析是粗略的或根据经验来判断.本文主要讨论利用数据挖掘中面向属性的归纳和决策树C4.5算法对国防生基本信息进行分析,从中找出影响国防生素质高低的一些规则和模式,帮助选培办针对性地进行教育管理,同时也给国防生选拔工作提供参考依据. 相似文献