首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
房立  黄泽宇 《微机发展》2006,16(8):106-109
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4.5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。  相似文献   

2.
针对C4.5决策树算法在构造决策树时只考虑属性对类的影响,忽视了属性间相互影响的问题。提出一种改进的决策树算法DTEAT(Decision Tree with Elimination of Attribute Dependency),该算法通过计算属性间的信息增益率来量化属性间相互影响的程度(依赖度)。在构造决策树的过程中,计算待分裂属性与其他每个属性的依赖度,将其均值作为选择分裂属性时的主要度量标准之一,从而消除属性间的依赖。实验结果表明,改进后的算法在UCI的样本数据集上的分类准确率有了显著的提升,最高提升了7个百分点。  相似文献   

3.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

4.
郭华平  范明 《计算机科学》2013,40(11):236-241
基于决策树的组合分类器可以看作一个森林。提出了一种森林剪枝算法来对森林进行剪枝,以简化组合分类器的结构,并提高其分类准确率。传统的决策树剪枝只考虑剪枝对单棵决策树的影响,而森林剪枝则把所有决策树看作一个整体,更加关注剪枝对组合分类器的性能影响。为了确定森林的哪些分枝可以被剪枝,提出一种称作贡献增益的度量。子树的贡献增益不仅与它所在的决策树的分类准确率有关,而且也与诸决策树的差异性有关,因此它较好地度量了一个结点扩展为一棵子树对组合分类器分类准确率的提高程度。借助于贡献增益,设计了一种基于结点贡献增益的森林剪枝算法FTCG。实验表明,无论森林是基于某种算法(如bagging)构建的还是某种组合分类器选择算法(如EPIC[1])的结果,无论每棵决策树是未剪枝的还是剪枝后的,FTCG都能进一步降低每棵决策树的规模,并且在大部分数据集上显著提高了剪枝后的组合分类器的分类准确率。  相似文献   

5.
ID3算法是数据挖掘中经典的分类算法。它往往选择取值较多的属性进行分裂训练集,而选取的这个属性并非是最优的。针对这一缺点,提出了一种改进的ID3算法。通过改进信息增益公式,选取最优的划分属性,对采集的数据进行分类处理,建立决策树,这样的决策树包括较少的分支,并且树的高度较低。改进后的算法结合模式匹配算法来检测是否有入侵行为发生。通过实验验证了该算法减少了误报率和漏报率,并且比修改前在速度上有所提高,空间消耗有所减少。  相似文献   

6.
一种基于修正信息增益的ID3算法   总被引:2,自引:0,他引:2       下载免费PDF全文
ID3算法是决策树中影响最大的算法之一,它以信息增益为标准选择决策树的测试属性。这种算法存在不足之处,在选择合适的测试属性时,倾向于选择取值较多的属性,而在实际应用中,取值较多的属性未必是重要的。针对此算法的不足,本文提出了一种对增益修正的 ID3算法,为改善 ID3的多值偏向问题提供了一种有效途径。通过理论分析和实验证明,这种算法能较好地解决多值倾向的问题。  相似文献   

7.
许俊 《福建电脑》2006,(12):34-35
决策树是分类数据挖掘的重要方法。其中,经典ID3算法根据具有最大信息增益的属性对训练样本集进行分类,适用于离散型属性。C4.5算法延用了ID3算法的基本策略,增加了处理连续数值型属性的方法。本文在其基础上讨论了新的基于属性变换的离散化处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。  相似文献   

8.
基于主成分分析的决策树构造方法   总被引:1,自引:0,他引:1  
针对传统的ID3算法在选择分裂属性上对取值较多属性过分依赖的缺点,提出了基于主成分分析的决策树优化算法.该算法是通过主成分分析综合了信息增益和相关度系数来选择分裂属性.论文通过UCI提供的标准数据集,对优化算法进行测试,分析了优化算法的性能特点,验证了优化算法在分类正确率和执行效率上要优于ID3算法.  相似文献   

9.
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6%。  相似文献   

10.
基于信息增益率的决策树对入侵检测的改进   总被引:2,自引:0,他引:2  
唐谦  张大方  黄昆 《计算机工程》2006,32(7):146-148
用构造决策树的方法来对入侵规则进行分类组织,将并行处理的机制引入到数据包与入侵规则集的匹配检测过程中。该文对于构造入侵规则决策树的过程,采用信息增益率为新的分类属性选择标准,并用它替代了原有的信息增益标准。实验证明,对于某些特定的攻击类型,在产生相同告警数量的前提下,采用信息增益率的检测引擎比采用信息增益的检测引擎,在检测速度上有明显的提高,有力地提高了基于特征的入侵检测性能,可及时地发现入侵行为。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号