共查询到17条相似文献,搜索用时 125 毫秒
1.
2.
3.
ID3算法作为数据挖掘分类技术中的核心算法,有着构造简单、学习能力强、分类速度快等优点。但由于其沿用的是机器学习算法,处理的数据集规模小且与数据库集成性较差,影响了其实用性。在继承原有算法思路的基础上,对其核心部分进行了改进,通过使用嵌入式SQL,直接对目标数据库进行查询操作并处理,最终得到分类决策表并保存于数据库。实验证明,改进的ID3算法结合了SQL的高效性和C语言的灵活性,高效无缝地实现了大量数据的分类且大大提高了算法的执行效率。 相似文献
4.
决策树算法是数据挖掘中非常活跃的研究领域。通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法。实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高。 相似文献
5.
6.
决策树算法的一种改进算法 总被引:2,自引:0,他引:2
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测.ID3算法是决策树中应用最广泛的算法,通过对数据挖掘中决策树的基本思想进行阐述,讨论了ID3算法倾向于取值较多属性的缺点,引入无关度对ID3算法作了改进.实验数据结果分析表明,改进后的算法能得到更合理、更有效的规则. 相似文献
7.
以实例计算为依据,指出经典广义灰色关联度模型在实际应用中存在计算结果与灰色行为序列间的现实意义不一致的问题,分析了这种问题形成的原因。给出了以灰色行为序列拆线所围实际面积为计算核心的改进方法和算法步骤,从理论上合理地解释了序列间的接近与相似性的问题;实例分析说明新方法计算结果更有说服力;给出了研究的方向。 相似文献
8.
决策树算法是数据挖掘中常用的重要方法,广泛应用于分类和预测。本文对决策树的ID3算法的基本思想进行了介绍,通过应用实例说明了构造决策树的实现过程。 相似文献
9.
决策树算法研究综述 总被引:2,自引:0,他引:2
郭玉滨 《数字社区&智能家居》2006,(1):155-155,160
简要回顾了数据挖掘的应用背景和常用的数据挖掘方法,重点研究了数据挖掘方法中的决策树算法,并对其主要成就进行评述.提出今后开展研究的建议: 相似文献
10.
为了提高决策树分类的速度和精确率,提出了一种基于分类矩阵的决策树算法.介绍了ID3算法的理论基础,定义了一种分类矩阵,指出了ID3算法的取值偏向性并利用分类矩阵给出了证明.在此基础上,引入了一个权重因子,抑制了原有算法的取值偏向,并利用分类矩阵给出相应证明,同时根据基于分类矩阵增益的特点,提出了新的决策树分类方案,旨在运算速率上进行优化,与原有算法进行了实验比较.对实验结果分析表明,优化后的方案在性能上有明显改善. 相似文献
11.
基于修正系数的决策树分类算法 总被引:2,自引:1,他引:1
ID3算法是决策树算法中的经典算法,但存在多值偏向问题.一些改进的ID3算法虽避免了多值偏向问题,但多存在主观性强,没有考虑属性信息熵等问题.为了解决该问题,提出了一种基于修正系数的决策树分类算法MC.该算法利用修正系数降低取值个数多的属性的信息增益,并通过实验与ID3算法进行了比较,结果表明,当样本集中各属性取值个数不同时,算法MC在生成决策树的结点总数和分类准确率上明显优于ID3算法. 相似文献
12.
基于MapReduce的决策树算法并行化 总被引:1,自引:0,他引:1
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。 相似文献
13.
通过分析ID3算法的基本原理及其多值偏向问题,提出了一种基于相关系数的决策树优化算法。首先通过引进相关系数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。通过具体数据的实例验证,说明优化后的ID3算法能够解决多值偏向问题。标准数据集UCI上的实验结果表明,在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,从而还缩短了决策树的生成时间,当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。 相似文献
14.
基于变精度粗糙集的决策树优化算法研究 总被引:4,自引:2,他引:4
应用变精度粗糙集理论,提出了一种利用新的启发式函数构造决策树的方法。该方法以变精度粗糙集的分类质量的量度作为信息函数,对条件属性进行选择。和ID3算法比较,本方法充分考虑了属性间的依赖性和冗余性,尤其考虑了训练数据中的噪声数据,允许在构造决策树的过程中划入正域的实例类别存在一定的不一致性,可简化生成的决策树,提高决策树的泛化能力。 相似文献
15.
基于决策协调度的最简决策树生成算法 总被引:1,自引:0,他引:1
在构造决策树的过程中,分离属性的选择方法直接影响着分类效果.采用粗糙集理论中决策协调度为分离属性的标准,提出条件确定度概念,并以此来控制树的增长.实例表明,与基于信息熵的ID3算法相比,该方法无需进行属性约简就可以得到复杂性较低的决策树,且能有效提高分类效果. 相似文献
16.
从条件属性对决策支持程度不同的角度出发,引入了决策支持度的概念,提出了一种以其为启发式信息的决策树生成算法。实验分析表明,相对于传统的决策树生成算法,此算法改善了决策树的结构,有效提高了决策分类的精度。 相似文献