首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题.在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性.同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论.最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树.  相似文献   

2.
增量决策树算法研究   总被引:2,自引:1,他引:2  
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题。在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性。同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论。最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树。  相似文献   

3.
汪辉  侯传宇 《数字社区&智能家居》2011,(15):3572-3574,3581
ID3算法和C4.5算法是经典的决策树算法,通过对ID3算法和C4.5算法的数据结构、算法描述和分裂属性选取等方面进行比较,为其他研究者提供参考.  相似文献   

4.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

5.
分类问题是数据研发领域里研究和使用最广泛的技术之一。近几年经济的飞速发展,分类问题在多行业和领域中被广泛使用,那么,怎样更准确、更有效地分类呢?这是多数研究工作人员的目标。决策树(decision tree)以条理清晰,程序严谨,定量、定性分析相结合,方法通俗易懂,容易掌握,应用性较强等优点,被广泛应用。现在构造决策树的算法比较多,如:ID3算法、C4.5算法、CART等。C4.5算法是在ID3算法的基础上进行改进的,C4.5算法选用信息增益率(Info Gain Ratio)为择取分枝属性的标准,此方法弥补了ID3算法在运用信息增益择取分枝属性时偏向于取值较多的属性的不足之处,但是C4.5算法也有部分缺陷,本文主要在其处理连续属性比较耗时问题上进行深入探讨,本文对其连续的处理过程进行改进来提高C4.5算法的计算效率,大大缩短算法用时。  相似文献   

6.
Apriori算法低频规则的有效性及实现   总被引:1,自引:0,他引:1  
针对经典Apriori算法基于全局、高频两个条件的缺陷,指出事务数据库低频规则的有效性,并通过对C4.5决策树的规则构造,进一步证明事务数据库存在低频规则,在此基础上,给出了一种Apriori低频规则挖掘算法。该算法与经典的Apriori算法兼容,但不是对Apriori算法简单的扩展,而是从理论上打破了Apriori算法基于全局和高频两个条件。最后通过实例用Apriori低频规则挖掘算法和C4.5算法对实例数据库进行挖掘,证明两者的一致性和Apriori低频规则的有效性,同时也证明了Apriori低频规则挖掘算法的有效性。  相似文献   

7.
基于动态粗集理论,提出一种改进的动态粗集决策树算法。改进后的算法对每一属性计算数据对象迁移系数的和,值最大的属性成为决策树的根;在对决策树分叉时,给每一决策类别的数据对象集合计算从根到分叉属性所构成的属性集的膨胀度,值大的属性构成分支结点。算法在UCI机器学习数据库原始数据集及其噪音数据集上的实验结果表明,该算法构造的决策树在规模与分类准确率上均优于ID3算法及C4.5算法。  相似文献   

8.
目的:构造能够利用口腔疾病数据预测其他临床疾病致病规律的决策树,并提取分类规则。方法:使用weka软件,利用数据挖掘技术的ID3算法对口腔诊疗数据进行分析,并针对ID3算法的准确率进行改进。结果:得到了预期的决策树和分类规则。结论:改进的ID3算法准确率高于改进前,所得的结果能够对医师起到指导作用。  相似文献   

9.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

10.
ID3算法是数据挖掘中经典的分类算法。它往往选择取值较多的属性进行分裂训练集,而选取的这个属性并非是最优的。针对这一缺点,提出了一种改进的ID3算法。通过改进信息增益公式,选取最优的划分属性,对采集的数据进行分类处理,建立决策树,这样的决策树包括较少的分支,并且树的高度较低。改进后的算法结合模式匹配算法来检测是否有入侵行为发生。通过实验验证了该算法减少了误报率和漏报率,并且比修改前在速度上有所提高,空间消耗有所减少。  相似文献   

11.
针对公路快递企业中业务数据利用率低、提取决策信息困难等问题,本文在ID3算法的基础上引入了数据集分割技术,形成一种基于数据集分割的决策树算法,该算法突破了内存的限制,可以处理大规模数据,且提高了执行效率。并通过在公路快速业务系统中的实际应用,验证了算法良好的适应性和可扩展性。  相似文献   

12.
Mining with streaming data is a hot topic in data mining. When performing classification on data streams, traditional classification algorithms based on decision trees, such as ID3 and C4.5, have a relatively poor efficiency in both time and space due to the characteristics of streaming data. There are some advantages in time and space when using random decision trees. An incremental algorithm for mining data streams, SRMTDS (Semi-Random Multiple decision Trees for Data Streams), based on random decision trees is proposed in this paper. SRMTDS uses the inequality of Hoeffding bounds to choose the minimum number of split-examples, a heuristic method to compute the information gain for obtaining the split thresholds of numerical attributes, and a Naive Bayes classifier to estimate the class labels of tree leaves. Our extensive experimental study shows that SRMTDS has an improved performance in time, space, accuracy and the anti-noise capability in comparison with VFDTc, a state-of-the-art decision-tree algorithm for classifying data streams.  相似文献   

13.
经典ID3决策树算法适用于离散型数据分类,但用于连续处理时需要数据离散化容易导致信息损失。提出邻域等价关系从而诱导邻域ID3(NID3)决策树算法,NID3算法改进了ID3决策树算法,能够直接实施连续预测并获取更好的分类效果。在邻域决策系统中,挖掘一种邻域等价关系;基于邻域等价粒化,构建邻域信息度量;基于邻域信息增益,设计NID3决策树算法。实例分析与数据实验均表明,NID3算法具有连续数据分类预测有效性,在分类机器学习中优于ID3算法。  相似文献   

14.
传统的决策树分类方法(如ID3和C4.5),对于相对小的数据集是很有效的。但是,当这些算法用于入侵检测这样的非常大的、现实世界中的数据时,其有效性就显得不足。采用了一种基于随机模型的决策树算法,在保证分类准确率的基础上,减少了对系统资源的占用,并通过对比实验表明该算法在对计算机入侵数据的分类上有着出色的表现。  相似文献   

15.
一种基于属性加权的决策树算法   总被引:1,自引:0,他引:1  
ID3算法和C4.5算法是简单而有效的决策树分类算法,但其应用于复杂决策问题上存在准确性差的问题。本文提出了一种新的基于属性加权决策树算法,基于粗集理论提出通过属性对决策影响程度的不同进行加权来构建决策树,提高了决策结果准确性。通过属性加权标记属性的重要性,权值可以从训练数据中学习得到。实验结果表明,算法明显提高了决策结果的准确率。  相似文献   

16.
文理分科是高中生面临的第一次重大选择,选文科还是理科,很多同学感到两头难。针对这种情况,通过对比决策树分类算法中的ID3和C4.5算法,提出了基于影响因子的新的分类算法,构造了"文理分科分类器"。实验证明该方法在文理分科问题上比传统的ID3和C4.5算法有更高的分类精确度,该分类器可以辅助学生和家长进行文理科的选择,降低选择的错误性。  相似文献   

17.
赵晓峰  叶震 《计算机应用》2007,27(5):1041-1043
传统的决策树分类方法(如ID3和C4.5)对于相对小的数据集是很有效的。但是,当这些算法用于入侵检测这样的非常大的数据时,其有效性就显得不足。采用了一种基于随机模型的决策树算法, 在保证分类准确率的基础上,减少了对系统资源的占用,并设计了基于此算法的分布式入侵检测模型。最后通过对比试验表明该模型在对计算机入侵数据的分类上有着出色的表现。  相似文献   

18.
The use of machine learning techniques to automatically analyse data for information is becoming increasingly widespread. In this paper we primarily examine the use of Genetic Programming and a Genetic Algorithm to pre-process data before it is classified using the C4.5 decision tree learning algorithm. Genetic Programming is used to construct new features from those available in the data, a potentially significant process for data mining since it gives consideration to hidden relationships between features. A Genetic Algorithm is used to determine which such features are the most predictive. Using ten well-known datasets we show that our approach, in comparison to C4.5 alone, provides marked improvement in a number of cases. We then examine its use with other well-known machine learning techniques.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号