共查询到15条相似文献,搜索用时 109 毫秒
1.
《计算机应用与软件》2016,(7)
针对ID3算法多值偏向及误分类代价被忽视的问题,结合属性相似度和代价敏感学习,提出基于均衡系数的决策树优化算法。该算法既克服了多值偏向,又考虑了误分类代价问题。首先引进属性相似度和性价比值两者的均衡系数,对ID3算法进行改进;然后运用麦克劳林公式对ID3算法进行公式简化;最后将算法改进和公式简化相结合,得到基于均衡系数的决策树优化算法。实验结果表明,基于均衡系数的决策树优化算法,既能够提高分类精度,缩短决策树生成时间,又能考虑代价问题并降低误分类代价,还能克服多值偏向问题。 相似文献
2.
《计算机应用与软件》2016,(1)
通过分析ID3算法的基本原理及其多值偏向问题,结合矫正函数提出一种决策树优化算法。首先通过引进矫正函数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。标准数据集UCI上的实验结果表明,优化后的ID3算法不仅解决了原ID3算法的多值偏向问题,而且在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,并且还缩短了决策树的生成时间。当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。 相似文献
3.
通过分析ID3算法的基本原理及其多值偏向问题,提出了一种基于相关系数的决策树优化算法。首先通过引进相关系数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。通过具体数据的实例验证,说明优化后的ID3算法能够解决多值偏向问题。标准数据集UCI上的实验结果表明,在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,从而还缩短了决策树的生成时间,当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。 相似文献
4.
5.
ID3算法是目前最具有影响力的一种决策树构造算法,但仍然有许多的缺点,例如在多值属性偏向方面的问题、计算时间复杂度高、效率不高等问题。提出了一种基于斯皮尔曼等级相关系数的ID3决策树构造优化算法,利用相关系数克服了ID3算法在多值属性偏向方面的问题,在一定程度上提高了算法的分类准确率。利用相关数学知识对计算过程进行了化简,减少了ID3算法在log运算上的运行时间。最后通过实验验证了优化后的算法是可行的,且在准确率和运行速度方面都有更好的表现。 相似文献
6.
基于修正系数的决策树分类算法 总被引:2,自引:1,他引:1
ID3算法是决策树算法中的经典算法,但存在多值偏向问题.一些改进的ID3算法虽避免了多值偏向问题,但多存在主观性强,没有考虑属性信息熵等问题.为了解决该问题,提出了一种基于修正系数的决策树分类算法MC.该算法利用修正系数降低取值个数多的属性的信息增益,并通过实验与ID3算法进行了比较,结果表明,当样本集中各属性取值个数不同时,算法MC在生成决策树的结点总数和分类准确率上明显优于ID3算法. 相似文献
7.
基于MapReduce的决策树算法并行化 总被引:1,自引:0,他引:1
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。 相似文献
8.
9.
针对决策树算法在分类时的多值偏向问题,提出了一种合理的基于相关系数的MID3算法的改进算法。该算法在生成决策树的过程中,将属性与分类结果之间的相关关系引入决策树节点的属性选择中,从而在一定程度上解决ID3算法的多值倾向问题,同时考虑系统两层节点从全局上优化树的结构。利用UCI数据集样本进行实验,将本文算法与ID3算法进行对比,得到了算法的效率的比较结果。实验结论表明,算法提高了数据的平均分类准确率,生成的决策树结构更加合理。 相似文献
10.
11.
本文通过数据挖掘对传统ID3决策树分类算法及性能进行分析研究,‘利用高等数学中的微分理论知识,改进和优化了ID3算法中的运算速度和选择测试属性偏向问题,并进一步给出了改进算法的伪代码. 相似文献
12.
在研究分类决策中应用得比较成熟和广泛的ID3算法基础上,提出了有效度决策树的模型和Ed算法.Ed算法不但成功解决了ID3算法内在偏置的问题,而且预测精度在某些情况下还会比ID3算法的预测精度高. 相似文献
13.
为了提高决策树分类的速度和精确率,提出了一种基于分类矩阵的决策树算法.介绍了ID3算法的理论基础,定义了一种分类矩阵,指出了ID3算法的取值偏向性并利用分类矩阵给出了证明.在此基础上,引入了一个权重因子,抑制了原有算法的取值偏向,并利用分类矩阵给出相应证明,同时根据基于分类矩阵增益的特点,提出了新的决策树分类方案,旨在运算速率上进行优化,与原有算法进行了实验比较.对实验结果分析表明,优化后的方案在性能上有明显改善. 相似文献
14.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。 相似文献
15.
ID3算法是应用最多的决策树生成算法,针对该算法执行效率不高以及取值偏向性的缺点,提出了一种通过降低求信息熵的计算时间和设置权值的改进算法。理论分析和实验结果表明,改进算法在准确度和执行效率方面都比ID3算法更高。 相似文献