首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
C4.5算法在2型糖尿病分类规则建立中的应用   总被引:6,自引:0,他引:6  
基于大量实测数据,将数据挖掘C4.5算法引入2型糖尿病的数据处理之中,建立了多条有效规则,通过测试其患病与未患病的平均正确识别率达97%。重要的是建立的这些规则同医学上的认识基本一致,可以说这些规则的建立为解释糖尿病发病因素之间的相互关系以及影响程度提供了一种新的方法,为建立2型糖尿病的预警和干预控制的研究提供了基础。  相似文献   

2.
面向中文文本分类的C4.5Bagging算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。  相似文献   

3.
基于大量实测数据,将数据挖掘C4.5算法引入2型糖尿病的数据处理之中,建立了多条有效规则,通过测试其患病与未患病的平均正确识别率达97%。重要的是建立的这些规则同医学上的认识基本一致,可以说这些规则的建立为解释糖尿病发病因素之间的相互关系以及影响程度提供了一种新的方法,为建立2型糖尿病的预警和干预控制的研究提供了基础。  相似文献   

4.
C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率.  相似文献   

5.
决策树是归纳学习和数据挖掘的重要方法,该文对c4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于信息检索结果分类中,实现了检索结果的分层分类处理。  相似文献   

6.
决策树技术是数据挖掘的重要方法,广泛应用于客户分类和预测。本文对决策树的C4.5算法的基本思想和特点进行了介绍,并结合实例说明了构造决策树的具体实现过程。  相似文献   

7.
提出了基于决策树C4.5算法的面向对象分类方法.首先利用多尺度分割方法对遥感影像进行分割;然后提取对象的特征信息,包括光谱特征、纹理特征、形状特征、图层特征等,对提取的众多的对象特征,利用决策树C4.5算法对其进行知识挖掘,自动建立分类规则;最后利用建立的分类规则,将C4.5算法作为一种分类器对分割后的遥感影像进行分类,并以南充市城市土地利用为例进行了分类实验.实验验证了该方法的可行性.实验结果表明利用决策树C4.5算法建立的分类规则准确率高,利用该分类规则进行的面向对象分类效果较好.  相似文献   

8.
税收信用分类管理在税务系统中起着重要作用,应用分类算法解决税收信用等级手工评定问题是当前税务系统的难题之一.决策树算法是分类算法中一类重要算法,其中以C4.5算法最为经典,但该算法在连续属性离散化方面花费时间成本较多.该文在C4.5连续属性离散化算法基础上引入基于经验值的窗口分割技术,在保证生成决策树准确率的前提下,有效的提高了算法运行效率.应用改进算法构造税收信用等级判定决策树,并根据构造的决策树实现对纳税人税收信用等级的自动判决.  相似文献   

9.
首先对C4.5算法做了介绍,然后针对案例工程对算法提出一些优化措施,运用C4.5算法对案例市政道路工程工程量清单费用进行建模与分析研究,提取分类规则,最后随机验证分类规则的普遍适用性。通过随机验证可知该分类规则具有普遍适用性,可以帮助工程造价相关从业人员进行快速预测,提高决策分析的工作效率。  相似文献   

10.
局域网传输的数据报中携带大量与数据包相关的信息.这些信息在一定意义上反映了数据报的行为。对数据报行为进行分类可为局域网上的网络入侵检测提供重要依据。文中提出使用C4.5决策树分类算法对局域网数据报进行行为分类,并与以往常用的几种分类算法进行了比较。实验表明,C4.5算法对于该问题无论在分类效率还是在分类正确性方面均有很大的优势。  相似文献   

11.
本文讨论了基于互信息的决策树分类算法——ID3算法及其改进算法C4.5。  相似文献   

12.
局域网传输的数据报中携带大量与数据包相关的信息,这些信息在一定意义上反映了数据报的行为。对数据报行为进行分类可为局域网上的网络入侵检测提供重要依据。文中提出使用C4.5决策树分类算法对局域网数据报进行行为分类,并与以往常用的几种分类算法进行了比较。实验表明,C4.5算法对于该问题无论在分类效率还是在分类正确性方面均有很大的优势。  相似文献   

13.
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法,它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤。将C4.5算法应用于高校财务预警系统的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在高校财务预警调查数据分析中具有广泛的应用前景。  相似文献   

14.
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

15.
王伟  李磊  张志鸿 《计算机科学》2015,42(12):268-271, 287
针对有噪声的高维数据引起决策树预测准确率下降的问题,利用容噪主成分分析(Noise-free Principal Component Anlysis,NFPCA)算法思想对C4.5算法改进而形成NFPCA-in-C4.5算法。该算法一方面将高维数据噪声控制问题转化为拟合数据特征与控制平滑度相结合的最优化问题,从而获得主成分空间;另一方面在决策树自顶向下构建新节点的过程中,再将主成分空间恢复到原始数据空间来避免降维过程中属性特征信息永久消失。实验结果表明NFPCA-in-C4.5算法兼具降维和容噪功能,避免了降维中由特征信息损失和噪声残留造成的预测模型准确率大幅降低的问题。  相似文献   

16.
基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率.但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加.经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%.  相似文献   

17.
列车轨道故障检测的实现需要对大量的数据进行分析来判定检测结果,决策树是进行数据挖掘与分类分析的常用工具。文中主要讨论如何应用C4.5算法构造列车轨道故障检测的决策树以及根据生成的决策树实现轨道故障的判决。  相似文献   

18.
自然灾害突发时,有效准确地启动应急响应级别是科学合理地实施应急救援的前提条件。目前,我国的应急响应分级标准是依据民政部制定的三个应急响应指标而确立的。它规定了用于划分响应级别的各指标的取值范围,但未给出如何根据实地灾情进行弹性调整的量化尺度,即酌减比率。针对上述问题本文提出利用历史案例数据库,在C4.5算法的基础上训练出应急响应级别分类器,得出具有实际灾情信息的分级准则。为传统的应急响应级别提供一个合理的酌减比率。通过对洪涝灾害进行实验表明该方法能够提供非常有参考价值的酌减比率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号