首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
基于粗糙集的决策树构造算法   总被引:7,自引:2,他引:5       下载免费PDF全文
针对ID3算法构造决策树复杂、分类效率不高问题,基于粗糙集理论提出一种决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,能全面地刻画属性分类的综合贡献能力,并且计算简单。为消除噪声对选择属性和生成叶节点的影响,利用变精度粗糙集模型对该算法进行优化。实验结果表明,该算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

2.
决策树算法的研究及优化   总被引:16,自引:3,他引:16  
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法,但构造最优决策树是一个NP困难问题。文中首先介绍了ID3算法的基本思想,然后讨论了决策树算法中的难点问题,针对ID3算法中所存在的不足,提出了一种利用优化法的思想来改进信息增益的算法,并且与ID3算法进行了实验对比。通过实验表明,这种方法从树的规模和分类精度都优于许多决策树算法,使决策效率明显提高。  相似文献   

3.
变精度粗糙集模型在决策树构造中的应用   总被引:1,自引:0,他引:1  
针对ID3算法构造决策树复杂、分类效率不高等问题,本文基于变精度粗糙集模型提出了一种新的决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,该标准更能够全面地刻画属性分类的综合贡献能力,计算简单,并且可以消除噪声数据对选择属性和生成叶节点的影响。实验结果证明,本算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

4.
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法,但构造最优决策树是一个NP困难问题.文中首先介绍了ID3算法的基本思想,然后讨论了决策树算法中的难点问题,针对ID3算法中所存在的不足,提出了一种利用优化法的思想来改进信息增益的算法,并且与ID3算法进行了实验对比.通过实验表明,这种方法从树的规模和分类精度都优于许多决策树算法,使决策效率明显提高.  相似文献   

5.
ID3算法是目前最具有影响力的一种决策树构造算法,但仍然有许多的缺点,例如在多值属性偏向方面的问题、计算时间复杂度高、效率不高等问题。提出了一种基于斯皮尔曼等级相关系数的ID3决策树构造优化算法,利用相关系数克服了ID3算法在多值属性偏向方面的问题,在一定程度上提高了算法的分类准确率。利用相关数学知识对计算过程进行了化简,减少了ID3算法在log运算上的运行时间。最后通过实验验证了优化后的算法是可行的,且在准确率和运行速度方面都有更好的表现。  相似文献   

6.
基于变精度粗糙集的决策树优化算法研究   总被引:4,自引:2,他引:4  
应用变精度粗糙集理论,提出了一种利用新的启发式函数构造决策树的方法。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择。和ID3算法比较,本方法充分考虑了属性间的依赖性和冗余性,尤其考虑了训练数据中的噪声数据,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性,可简化生成的决策树,提高决策树的泛化能力。  相似文献   

7.
决策树算法的优化与比较   总被引:5,自引:0,他引:5       下载免费PDF全文
鲁为  王枞 《计算机工程》2007,33(16):189-190
ID3算法采用一种对属性进行逐层的搜索和比较的“贪婪算法思想”。基于ID3算法的层间不相关性,该文考虑了生成树中相邻层的耦合,提出了一种改进的ID3的决策树算法(E-ID3),E-ID3算法使用一种基于“统计出局部最优”的方法,获得比较好的启发式函数算法,并分析了E-ID3“算两步,走一步”的思想。实验证明,该优化算法对于构建决策树具有很好的效率。  相似文献   

8.
基于修正系数的决策树分类算法   总被引:2,自引:1,他引:1  
ID3算法是决策树算法中的经典算法,但存在多值偏向问题.一些改进的ID3算法虽避免了多值偏向问题,但多存在主观性强,没有考虑属性信息熵等问题.为了解决该问题,提出了一种基于修正系数的决策树分类算法MC.该算法利用修正系数降低取值个数多的属性的信息增益,并通过实验与ID3算法进行了比较,结果表明,当样本集中各属性取值个数不同时,算法MC在生成决策树的结点总数和分类准确率上明显优于ID3算法.  相似文献   

9.
一种基于灰色关联度的决策树改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在构造决策树的过程中,分裂属性选择的标准直接影响分类的效果。分析了现有改进的ID3算法不同程度地存在学习效率偏低和对多值属性重要性的主观评测等问题,提出一种高效而且可靠的基于灰色关联度的决策树改进算法。该算法通过灰色关联分析建立各特征属性与类别属性之间的关系,进而利用灰色关联度来修正取值较多但非重要属性的信息增益。通过实验与其它ID3改进算法进行了比较,验证了改进后的算法是有效的。  相似文献   

10.
决策树是数据挖掘的一种重要方法,通常用来形成分类器和预测模型。ID3算法作为决策树的核心算法,由于它的简单与高效而得到了广泛的应用,然而它倾向于选择属性值较多的属性作为分支属性,从而可能错过分类能力强的属性。对ID3算法的分支策略进行改进,增加了对属性的类区分度的考量。经实验比较,新方法能提高决策树的精度,简化决策树。  相似文献   

11.
针对决策树算法在分类时的多值偏向问题,提出了一种合理的基于相关系数的MID3算法的改进算法。该算法在生成决策树的过程中,将属性与分类结果之间的相关关系引入决策树节点的属性选择中,从而在一定程度上解决ID3算法的多值倾向问题,同时考虑系统两层节点从全局上优化树的结构。利用UCI数据集样本进行实验,将本文算法与ID3算法进行对比,得到了算法的效率的比较结果。实验结论表明,算法提高了数据的平均分类准确率,生成的决策树结构更加合理。  相似文献   

12.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

13.
区间值属性单调决策树算法是处理区间值属性单调分类问题的重要途径之一,但此算法构建决策树过程中没有考虑属性间的相关性,因此极可能继续分类没有意义或意义很小的冗余属性。针对以上不足,在区间值属性单调决策树算法的基础上,分析了区间值属性之间的冗余信息对构建单调决策树的影响,并提出了一种扩展算法,要求选取的扩展属性不仅与决策属性的排序互信息值最大,还与同一分支上已被选取的条件属性的排序互信息值最小。实验结果表明,考虑了区间值属性间的交互信息后,可避免同一条件属性的重复选择,与已有的算法相比,该扩展算法能构建出更优的单调决策树。  相似文献   

14.
针对决策者在面对几个分类结果时会有选择其中某一个结果的倾向性这一事实,提出了一种基于相关性的类偏好敏感决策树分类算法(CPSDT)。该算法引入了类偏好度、偏好代价矩阵等概念。为弥补在传统决策树构造过程中,选择分裂属性时未考虑非类属性之间相关性的不足,该算法在进行学习之前先采用基于相关性的特征预筛选排除属性冗余并重新构造了基于相关性的属性选择因子。经实验证明,该算法能够有效减小决策树规模,且能够在实现对偏好类的高精度预测的同时保证决策树拥有较好的整体精度。  相似文献   

15.
陈家俊  苏守宝  徐华丽 《计算机应用》2011,31(12):3243-3246
针对经典决策树算法构造的决策树结构复杂、缺乏对噪声数据适应能力等局限性,基于多尺度粗糙集模型提出一种新的决策树构造算法。算法引入尺度变量和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,使用抑制因子对决策树进行修剪,有效地去除了噪声规则。结果表明该算法构造的决策树简单有效,对噪声数据有一定的抗干扰性,且能满足不同用户对决策精度的要求。  相似文献   

16.
电力通信网络的快速增长,传统被动响应的事后运维模式迫切需要向分析预测的事前运维模式转型。论文在深入研究典型决策树理论的基础上,针对电力通信设备运行状态的关联特性,提出了一种改进的决策树学习算法,通过借鉴粗糙集理论对决策表属性的约简、求核与泛化过程,最终构造出一种多变量的决策树。通过算法仿真,该方法构建的决策树结构更为简化和合理,大大降低了计算量,提高了预测分析效率,为电力通信的运维提供了一种快速、简捷的通信设备状态预测方法,克服了经典决策树算法的不足,具有一定的实用性。  相似文献   

17.
华文立  胡学刚 《微机发展》2007,17(3):116-118
在分析C4.5算法原理的基础上,进一步讨论了C4.5算法在决策树的规模控制、属性选择、滤躁和去除不相关属性等方面的不足,讨论了决策树挖掘中对训练数据进行属性约简的必要性。从实用的角度提出了一种利用遗传算法进行寻优的、基于属性约简的决策树构建模型,并为此模型设计了一个适应度函数。该模型具有自适应的特点,通过调整适应度函数的参数,可以约束遗传算法的寻优方向,实现对决策树的优化。实验表明,决策树寻优后,在所用训练集属性减少的同时,分类精度却有一定程度的提高,而分类规则的规模却降低了,因此,该模型具有一定的实用价值。  相似文献   

18.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。  相似文献   

19.
通过分析ID3算法的基本原理及其多值偏向问题,提出了一种基于相关系数的决策树优化算法。首先通过引进相关系数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。通过具体数据的实例验证,说明优化后的ID3算法能够解决多值偏向问题。标准数据集UCI上的实验结果表明,在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,从而还缩短了决策树的生成时间,当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。  相似文献   

20.
基于多个混合核函数的SVM决策树算法设计   总被引:5,自引:0,他引:5  
不同的核函数具有不同的特性,SVM决策树中每个子SVM面对的分类对象不同,选取的核函数及其参数也应该不同。通过调节混合核函数的参数形成不同的核函数,给出了一个用多个混合核函数训练SVM决策树的多类分类算法。仿真试验表明,该算法与只用一个核函数训练SVM决策树的算法相比,具有较高的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号