共查询到16条相似文献,搜索用时 156 毫秒
1.
《软件》2016,(12):89-92
随着硬件设备的普及,促使信息技术和移动互联网的快速发展,人们已经告别了信息匮乏的时期,而进入到了信息过载的时期。人们试图用搜索功能搜索出自己想要的信息,如今已是非常困难,怎样从海量的数据中筛选出有价值的信息是信息提供者和信息需求者都要面对的挑战。本文对数据分类中的ID3算法的基本概念和原理以及其构造过程进行了详细阐述,针对ID3算法倾向于选择取值较多的属性的缺点,引进属性阈值和信息增益率两个概念。弥补ID3算法属性选择标准的不足,来实现新的属性选择标准,对原有ID3算法进行改进。通过实验对改进前后的算法进行了比较,实验表明,改进后的算法提高了分类准确度。 相似文献
2.
本文通过数据挖掘对传统ID3决策树分类算法及性能进行分析研究,‘利用高等数学中的微分理论知识,改进和优化了ID3算法中的运算速度和选择测试属性偏向问题,并进一步给出了改进算法的伪代码. 相似文献
3.
ID3算法是数据挖掘分类中的一种重要算法,它是以信息增益作为属性选择的标准。针对 ID3算法存在的一些不足,提出一种基于修正参数简化标准的 ID3改进算法:1)在信息熵中引入修正参数;2)对引入修正参系数后的信息熵进行简化。实验数据结果表明,改进后的算法能得到更合理、更有效的规则,不仅在一定程度上克服了取值偏向问题,同时减少计算量。 相似文献
4.
《计算机应用与软件》2016,(1)
通过分析ID3算法的基本原理及其多值偏向问题,结合矫正函数提出一种决策树优化算法。首先通过引进矫正函数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。标准数据集UCI上的实验结果表明,优化后的ID3算法不仅解决了原ID3算法的多值偏向问题,而且在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,并且还缩短了决策树的生成时间。当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。 相似文献
5.
ID3算法的一种改进算法 总被引:33,自引:5,他引:33
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。ID3算法是决策树中的核心算法,文章针对ID3算法倾向于取值较多的属性的缺点,引进用户兴趣度对ID3算法作了改进,并通过实验对改进前后的算法进行了比较,实验表明,改进后的算法是有效的。 相似文献
6.
决策树ID3算法的改进 总被引:3,自引:0,他引:3
本文根据ID3算法中信息增益计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的ID3算法,减少了信息增益的计算量,进而提高ID3算法中信息增益的计算效率。与原ID3算法相比,改进的ID3算法在构造决策树时具有相同的准确率和更高的计算速度。 相似文献
7.
通过分析ID3算法的基本原理及其多值偏向问题,提出了一种基于相关系数的决策树优化算法。首先通过引进相关系数对ID3算法进行改进,从而克服其多值偏向问题,然后运用数学中泰勒公式和麦克劳林公式的性质,对信息增益公式进行近似简化。通过具体数据的实例验证,说明优化后的ID3算法能够解决多值偏向问题。标准数据集UCI上的实验结果表明,在构建决策树的过程中,既提高了平均分类准确率,又降低了构建决策树的复杂度,从而还缩短了决策树的生成时间,当数据集中的样本数较大时,优化后的ID3算法的效率得到了明显的提高。 相似文献
8.
ID3算法是数据挖掘中经典的分类算法。它往往选择取值较多的属性进行分裂训练集,而选取的这个属性并非是最优的。针对这一缺点,提出了一种改进的ID3算法。通过改进信息增益公式,选取最优的划分属性,对采集的数据进行分类处理,建立决策树,这样的决策树包括较少的分支,并且树的高度较低。改进后的算法结合模式匹配算法来检测是否有入侵行为发生。通过实验验证了该算法减少了误报率和漏报率,并且比修改前在速度上有所提高,空间消耗有所减少。 相似文献
9.
决策树是数据挖掘的重要方法,通常用来形成分类器和预测模型。分析ID3算法和现有的ID3改进算法所存在的问题。提出一种合理且可靠的MID3的改进算法,即针对MID3算法倾向于取值较多属性的缺点,引入了用户兴趣度对算法进行改进,改进后的MID3算法既可以在一定程度上解决多值偏向问题,也可以考虑决策树的两层节点。并通过实验与其他ID3改进算法进行比较,实验结果表明,改进后的MID3算法是有效的。 相似文献
10.
11.
决策树学习算法ID3的研究 总被引:28,自引:0,他引:28
ID3是决策树学习的核心算法,为此详细叙述了决策树表示方法和ID3决策树学习算法,特别说明了决策属性的选取法则。通过一个学习实例给出该算法第一选取决策属性的详细过程,并且对该算法进行了讨论,一般情况下,ID3算法可以找出最优决策树。 相似文献
12.
13.
ID3算法是决策树中影响最大的算法之一,它以信息增益为标准选择决策树的测试属性。这种算法存在不足之处,在选择合适的测试属性时,倾向于选择取值较多的属性,而在实际应用中,取值较多的属性未必是重要的。针对此算法的不足,本文提出了一种对增益修正的 ID3算法,为改善 ID3的多值偏向问题提供了一种有效途径。通过理论分析和实验证明,这种算法能较好地解决多值倾向的问题。 相似文献
14.
提出了一种具备自训练学习能力的ES-ID3决策树算法。该算法克服了传统ID3算法要求所有训练样本必须事先进行分类处理的约束,通过充分利用已采集但未进行分类的“准训练样本”进行自训练学习过程,非常适用于获取训练样本代价较高的环境,如医学病例样本采集等。对肝病中医辨症问题应用该算法,实验证明,无论从分类的准确性及对关键决策属性的提取能力,较之于传统ID3算法,该算法均有显著提高;算法结论能对医疗工作提供有效帮助。 相似文献
15.