首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
华文立  胡学刚 《微机发展》2007,17(3):116-118
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高,而分类规则的规模却降低了,因此,该模型具有一定的实用价值。  相似文献   

2.
给定一个模糊信息系统,可能找到多个重要的模糊属性子集,而且这些重要的模糊属性子集对决策有不同的贡献,会产生不同的影响.如果仅选择其中一个模糊属性子集进行决策,即使是最重要的一个,也会丢失隐含在其他重要的模糊属性子集中的可用信息.为了充分利用模糊信息系统中每个重要的模糊属性子集所提供的信息,提出了一种基于模糊积分的多模糊决策树融合方法.这种方法分3个步骤:1)通过模糊等价关系找到几个重要的模糊属性子集;2)对每个模糊属性子集,利用模糊ID3算法生成一棵模糊决策树;3)用模糊积分融合几棵模糊决策树.实验结果证明了用多模糊决策树融合方法比单模糊决策树分类效果更好.  相似文献   

3.
一种两阶段决策树建树方法及其应用   总被引:2,自引:0,他引:2  
提出一种新颖的两阶段决策树建树方法;在对数据集进行较粗的分类后,通过遗传算法寻找规则集来建立决策树叶子节点.该方法可以同时对多个属性进行度量,并避免了决策树的剪枝过程。  相似文献   

4.
基于遗传算法的决策树优化模型   总被引:1,自引:0,他引:1  
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高.而分类规则的规模却降低了.因此,该模型具有一定的实用价值。  相似文献   

5.
决策树是一种比较有效的数据挖掘方法,缺点是当训练集数据属性很多时,构建的决策树的规模会随着属性个数增加而增长。论文从GAAA算法的角度,提出一种动态融合的方法,确定最佳融合时刻。实验结果表明该算法可以有效克服停滞,提高搜索效率,有效地挖掘出最优的分类规则集。  相似文献   

6.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

7.
熵在决策树构建中的应用   总被引:1,自引:0,他引:1  
决策树是对未知数据进行分类预测的一种方法。本文阐述熵理论和典型的ID3算法,并举例构建决策树。讨论选择具有最高信息增益的属性构建决策树,即选定具有最高区分度的属性作为当前节点。利用熵理论构建决策树,方法简单,结构清晰,容易转换成分类规则,并且不需要先验领域知识。  相似文献   

8.
基于规则归纳的遗传算法选择和参数设置   总被引:1,自引:1,他引:0       下载免费PDF全文
李婷  崔杜武 《计算机工程》2010,36(3):218-220
在设计遗传算法时,讨论算法种类的选取和控制参数的设置,基于规则归纳方法,提出一种研究遗传算法种类选择和控制参数设置的实验模型,以遗传算法数值优化问题为背景,用统一结构描述遗传算法实验,利用属性分组等操作规范训练集与决策树算法SLIQ进行规则归纳,将获取的规则用于指导遗传算法设计,并用设计出的算法解决某函数的优化求解问题。  相似文献   

9.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程.实验证明,该算法运行效率和预测精度都优于传统的ID3算法.  相似文献   

10.
新型决策树构造方法   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树是一种重要的数据挖掘工具,但构造最优决策树是一个NP-完全问题。提出了一种基于关联规则挖掘的决策树构造方法。首先定义了高可信度的近似精确规则,给出了挖掘这类规则的算法;在近似精确规则的基础上产生新的属性,并讨论了新生成属性的评价方法;然后利用新生成的属性和数据本身的属性共同构造决策树;实验结果表明新的决策树构造方法具有较高的精度。  相似文献   

11.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

12.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

13.
基于粗集和熵的多变量决策树的构造算法   总被引:1,自引:0,他引:1  
罗秋瑾  马锐 《计算机应用》2007,27(7):1708-1710
多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合作为节点。针对传统方法中用相对核进行多变量检验中属性选择存在的不足,首先对每个节点包含的属性个数加以限制,然后由重新定义的属性依赖度和基于条件熵的距离函数选择相关的属性组合作为节点,从而提出一种新的构造算法。实例说明,该算法不仅有效降低了树的高度,而且还兼顾了分类的可读性。  相似文献   

14.
周亮  晏立 《计算机应用研究》2010,27(8):2899-2901
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表性实例的原型抽象方法,该方法从原始数据集中抽取代表性实例组成抽象原型,可缩减实例数目和无关属性,从而使算法可以处理大数据集;然后提出属性分类价值量概念,并作为选择属性的启发式测度,该测度描述了属性对分类的贡献价值量的多少,侧重考虑了属性之间以及实例与分类之间的关系。实验表明,新算法比其他算法生成的决策树规模要小,准确率也有显著提高,在大数据集上尤为明显。  相似文献   

15.
区间值属性单调决策树算法是处理区间值属性单调分类问题的重要途径之一,但此算法构建决策树过程中没有考虑属性间的相关性,因此极可能继续分类没有意义或意义很小的冗余属性。针对以上不足,在区间值属性单调决策树算法的基础上,分析了区间值属性之间的冗余信息对构建单调决策树的影响,并提出了一种扩展算法,要求选取的扩展属性不仅与决策属性的排序互信息值最大,还与同一分支上已被选取的条件属性的排序互信息值最小。实验结果表明,考虑了区间值属性间的交互信息后,可避免同一条件属性的重复选择,与已有的算法相比,该扩展算法能构建出更优的单调决策树。  相似文献   

16.
决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策 树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择 扩展属性,其计算时间复杂度高。针对这一问题,提出了一种基于相容粗糙集技术的连续值属性决策树归纳方法。该 方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。从理论 上分析了该算法的计算时间复杂度,并在多个数据集上进行了实验。实验结果及对实验结果的统计分析均表明,提出 的方法在计算复杂度和分类精度方面均优于其他相关方法。  相似文献   

17.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

18.
基于属性值的ID3算法改进   总被引:6,自引:1,他引:5  
ID3算法是数据挖掘中经典的决策树分类算法.针对ID3算法所存在的属性取值偏向问题及只时较小的数据集有效的缺点提出改进.当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树.采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度.实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效.  相似文献   

19.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号