首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
目前对决策树(Decision Tree,DT)分类问题的相关研究已取得了很多成果,但仍存在一些问题,如决策树在寻找最优切分点时需要遍历特征的所有取值,当数据集规模较大时,递归构建决策树所需时间将会很长,因此在保证分类精度的前提下加速决策树的构建具有重要意义.本文首先根据数据的不同分布,给出两种特征值区间的分割方法,即...  相似文献   

2.
随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。  相似文献   

3.
学校做好学生健康管理,及时发现身体素质不好的、容易生病的学生,并提前做好干预工作,具有重要的现实意义和应用价值。在调研采集学生体质数据集的基础上,采用Python机器学习库Sklearn库对学生体质分类进行挖掘建模,对学生易生病体质进行挖掘分类,同时将模型部署到Web系统中,实现了学生体质在线预测功能,能辅助学校进行学生健康管理决策。  相似文献   

4.
一种基于FP_Tree算法的决策树构造方法   总被引:1,自引:0,他引:1  
针对大规模训练元组决策树构造效率较低的问题,提出一种改进的决策树构造方法。该方法利用FP_Tree算法,比采用经典Apriori算法节省了更多内存开销。使用FP_Tree路径替代经典算法中训练元组的分裂计算,得到与原算法相同的决策树模型。实验结果证明,改进后的方法具有良好性能。  相似文献   

5.
介绍了机器学习的背景、及决策树的基本概念、决策树学习的基本过程,以及其中最重要的特征选择的依据:信息增益和基尼指数,重点研究了两种常见的算法ID3和CART,并对比其优缺点,并给出了一个用决策树对泰坦尼克号存活人员进行分类的实例,从中看出决策树算法非常简单强大,适用于小规模数据应用场景。  相似文献   

6.
一种改进的决策树后剪枝算法磁   总被引:1,自引:0,他引:1  
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。  相似文献   

7.
针对现有决策树算法对连续性数据分类的信息丢失、效果不佳等缺点,提出一种邻域决策树(NDT)构造算法.首先,挖掘了邻域决策信息系统上的变精度邻域等价粒,并探讨了相关性质;然后基于变精度邻域等价粒构建邻域基尼指数度量,以度量邻域决策信息系统的不确定性;最后,用邻域基尼指数度量诱导出树节点的选取条件,并以变精度邻域等价粒为树...  相似文献   

8.
空间分类规则挖掘的一种决策树算法   总被引:3,自引:0,他引:3  
蔡之华  李宏  胡军 《计算机工程》2003,29(11):74-75,118
空间分类规则挖掘是空间数据挖掘研究的一个重要领域。文章提出一个空间分类规则挖掘问题,并为解决该问题介绍了一种空间分类规则挖掘的决策树算法。  相似文献   

9.
决策树是数据挖掘中的一个重要算法.文中首先介绍了决策树的生成思想,和生成过程中关于多值属性的分离问题.基尼指数是多值属性分离的一种方法,文中详细介绍了基尼指数作为一种不纯度分裂方法的原理,并通过一个分别用两种方式进行基尼分裂的实例.最后参阅国内外文献将基尼指数与其他一些算法如信息增益、χ2统计作了比较来说明其在多值属性分裂时的一些优点和缺点.  相似文献   

10.
决策树中基于基尼指数的属性分裂方法   总被引:2,自引:0,他引:2  
决策树是数据挖掘中的一个重要算法。文中首先介绍了决策树的生成思想,和生成过程中关于多值属性的分离问题。基尼指数是多值属性分离的一种方法,文中详细介绍了基尼指数作为一种不纯度分裂方法的原理,并通过一个分别用两种方式进行基尼分裂的实例。最后参阅国内外文献将基尼指数与其他一些算法如信息增益、χ2统计作了比较来说明其在多值属性分裂时的一些优点和缺点。  相似文献   

11.
决策树是数据挖掘技术中一种常用的分类方法,易于理解,应用范围广泛。随着对决策树算法的持续深入地研究,以及对应用中发现的问题加以解决和不断改进,提高了决策树的分类速度、精度和实用性,并形成了多种独特的算法。该文以某商业银行信用卡消费为例对决策树及常用算法进行了详细解析,以期在今后使用或改进算法时能提供有益的帮助。  相似文献   

12.
决策树是数据挖掘技术中一种常用的分类方法,易于理解,应用范围广泛。随着对决策树算法的持续深入地研究,以及对应用中发现的问题加以解决和不断改进,提高了决策树的分类速度、精度和实用性,并形成了多种独特的算法。该文以某商业银行信用卡消费为例对决策树及常用算法进行了详细解析,以期在今后使用或改进算法时能提供有益的帮助。  相似文献   

13.
数据挖掘中决策树算法的最新进展   总被引:27,自引:1,他引:27  
概述了传统决策树方法的基本原理和优越性,指出了该方法应用于超大数据集的数据挖掘环境时的局限性;着重分五个方面概括了近年来决策树方法在数据挖掘中的主要进展,并讨论了决策树方法面临的挑战及其发展趋势。  相似文献   

14.
分类决策树的归纳是一种重要的数据挖掘算法。本文重点介绍了两种基于并行算法的分类决策树的构造算法,并对它们的适用性及特点作了分析。  相似文献   

15.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度.  相似文献   

16.
本文说明了一种决策模型的自动生成及管理系统的设计与实现方法。该系统能够辅助人们去建立一种基于决策表的决策模型,自动进行各种检验,并能将此模型转换成另外两种决策模型。此外,它还具有决策模型库和应用案例库的管理功能。该系统已成功地运用到多个大型信息系统的开发之中。  相似文献   

17.
决策树算法是数据挖掘中非常活跃的研究领域。通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法。实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高。  相似文献   

18.
在数据挖掘中,分期是一个很重要的问题,有很多流行的分类器可以创建决策树木产生类模型。本文介绍了通过信息增益或熵的比较来构造一棵决策树的数桩挖掘算法思想,给出了用粗糙集理论构造决策树的一种方法,并用曲面造型方面的实例说明了决策树的生成过程。通过与ID3方法的比较,该种方法可以降低决策树的复杂性,优化决策树的结构,能挖掘较好的规则信息。  相似文献   

19.
数据挖掘中判定树算法SLIQ的设计与应用   总被引:4,自引:0,他引:4  
分析了一种用Gini指标进行属性选择的SLIQ算法,讨论了提高效率的可行方法.把算法用到电力市场发电竞价决策系统中,通过对发电商的竞标能力进行挖掘,获取的知识对发电商的决策有重要现实意义.  相似文献   

20.
现有的多变量决策树在分类准确性与树结构复杂性两方面优于单变量决策树,但其训练时间却高于单变量决策树,使得现有的多变量决策树不适用于快速响应的分类任务.针对现有多变量决策树训练时间高的问题,提出了基于信息熵和几何轮廓相似度的多变量决策树(IEMDT).该算法利用几何轮廓相似度函数的一对一映射特性,将n维空间样本点投影到一维空间的数轴上,进而形成有序的投影点集合,然后通过类别边界和信息增益计算最优分割点集将有序投影点集合划分为多个子集,接着分别对每个子集继续投影分割,最终生成决策树.在8个数据集上的实验结果表明:IEMDT具有较低的训练时间,并且具有较高的分类准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号