首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
本文讨论了基于互信息的决策树分类算法——ID3算法及其改进算法C4.5。  相似文献   

2.
应用C4.5算法构造客户分类决策树的方法   总被引:23,自引:0,他引:23  
客户等级划分是CRM中一个非常重要的方面。而决策树是进行分类分析的一个常用工具,该文主要讨论如何应用C45算法构造客户等级分类决策树及其在CRM中的应用。  相似文献   

3.
刘金红  陆余良 《计算机应用》2006,26(12):3012-3014
提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。  相似文献   

4.
针对C4.5决策树构造复杂、分类精度不高等问题,提出了一种基于变精度粗糙集的决策树构造改进算法.该算法采用近似分类质量作为节点选择属性的启发函数,与信息增益率相比,该标准更能准确地刻画属性分类的综合贡献能力,同时对噪声有一定的抑制能力.此外还针对两个或两个以上属性的近似分类质量相等的特殊情形,给出了如何选择最优的分类属...  相似文献   

5.
针对C4.5决策树算法在构造决策树时只考虑属性对类的影响,忽视了属性间相互影响的问题。提出一种改进的决策树算法DTEAT(Decision Tree with Elimination of Attribute Dependency),该算法通过计算属性间的信息增益率来量化属性间相互影响的程度(依赖度)。在构造决策树的过程中,计算待分裂属性与其他每个属性的依赖度,将其均值作为选择分裂属性时的主要度量标准之一,从而消除属性间的依赖。实验结果表明,改进后的算法在UCI的样本数据集上的分类准确率有了显著的提升,最高提升了7个百分点。  相似文献   

6.
在基于C4.5算法的网络流量分类方法中,网络流量数据量的海量性及其特征的多样性使得决策树的构建速度、分类速度成为评价网络流量分类器的重要标准。在原C4.5算法的基础上提出一种改进的信息熵的计算方法,通过减少计算函数的复杂度,提高决策树的构建速度。实验表明,基于改进后算法的分类器在达到原有分类准确率的同时,极大地缩短了决策树的构成时间。  相似文献   

7.
决策树技术是数据挖掘的重要方法,广泛应用于客户分类和预测。本文对决策树的C4.5算法的基本思想和特点进行了介绍,并结合实例说明了构造决策树的具体实现过程。  相似文献   

8.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

9.
C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率.  相似文献   

10.
基于C4.5决策树的流量分类方法   总被引:17,自引:1,他引:17  
徐鹏  林森 《软件学报》2009,20(10):2692-2704
近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为此,引入C4.5决策树方法来处理流量分类问题.该方法利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.理论分析和实验结果都表明,利用C4.5决策树来处理流量分类问题在分类稳定性上均具有明显的优势.  相似文献   

11.
集成学习逐渐成为机器学习的研究热点。针对决策树C4.5集成算法中基分类器多样性差的问题,提出了修正矩阵Correction Matrix –C4.5(CMC4.5)集成学习算法,并将其应用于图像自动标注。算法首先对特征子集进行多样性处理,然后通过构造修正矩阵依次得到基分类器C4.5全新训练数据集,实现训练数据集之间的多样性和属性特征完整性,完成集成算法。对比实验表明,CMC4.5集成学习方法大大提高了分类准确率。将CMC4.5集成学习与图像标注相结合,实现了基于CMC4.5的图像自动标注。  相似文献   

12.
C4.5算法在选择分裂属性时只考虑了每个条件属性和决策属性之间的关系,而没有考虑到条件属性间的相关性,直接影响构建树的准确率。提出一种基于Kendall和谐系数的C4.5决策树优化算法,用于解决条件属性之间相关性的问题,提高算法属性选择的准确性。在引入系数的基础上运用等价无穷小原理对计算公式进行简化,提高了算法的效率。对改进后的C4.5算法和传统的算法进行仿真实验,结果表明,改进的C4.5算法在准确度和效率上都有较大提高。  相似文献   

13.
为了解决Web数据库多查询结果问题,提出了一种基于改进决策树算法的Web数据库查询结果自动分类方法.该方法在离线阶段分析系统中所有用户的查询历史并聚合语义上相似的查询,根据聚合的查询将原始数据划分成多个元组聚类,每个元组聚类对应一种类型的用户偏好.当查询到来时,基于离线阶段划分的元组聚类,利用改进的决策树算法在查询结果集上自动构建一个带标签的分层分类树,使得用户能够通过检查标签的方式快速选择和定位其所需信息.实验结果表明,提出的分类方法具有较低的搜索代价和较好的分类效果,能够有效地满足不同类型用户的个性化查询需求.  相似文献   

14.
15.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。  相似文献   

16.
主成分分析(Principal Component Analysis,PCA)可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因素。文章将主成分分析和决策树C4.5算法相结合,提出一种心脏病诊断预测的新方法,该方法采用PCA方法对影响心脏病诊断的众多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用C4.5算法建立心脏病诊断的预测模型。经实验证明有效的提高了C4.5算法的分类正确率,提高了心脏病诊断的正确率。  相似文献   

17.
石志凯  朱国胜 《计算机科学》2017,44(Z6):270-273
目前移动数据流量已占全球IP流量的47%,其中WiFi流量已占整个移动数据流量的90%以上。WiFi环境下移动终端流量的识别对互联网流量管理具有重要意义。传统基于HTTP用户代理(User Agent,UA)的流量识别方法存在识别率不高的问题。分析了WiFi环境下移动终端连接持续时间、数据包大小、有效载荷大小等流量特征,提出一种WiFi环境下基于C4.5决策树的手持终端设备流量识别方法WF-C4.5,通过计算各属性值的信息增益率构建决策树模型,实现手持终端与非手持终端流量的区分。实验表明,相比UA方法65%的准确率,所提方法的准确率高达95%。  相似文献   

18.
支持向量机作为非参数方法已经广泛应用于信用评估领域.为克服其训练高维数据不能主动进行特征选择导致准确率下降的缺点,构建C4.5决策树优化支持向量机的信用评估模型.利用C4.5信息熵增益率方法进行属性选择,减少冗余属性.模型通过网格搜索确定最优参数,使用F-score和平均准确率评价模型性能,并在两组公开数据集上进行验证.实证分析表明,C4.5决策树优化支持向量机的信用评估模型有效减少了数据学习量,较于传统各类单一模型有较高的分类准确率和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号