首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的标准直接影响决策树分类的效果。基于粗糙集的属性频率函数等方法度量属性重要性的概念,将其用于分枝划分属性的选择,提出一种决策树学习算法。该方法仅利用区分矩阵就可以计算出属性的出现频率函数值,计算简单。实验结果表明,用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,结构简单,且能有效提高分类效果。  相似文献   

2.
在构造决策树的过程中,分离属性选择的标准直接影响分类的效果.基于变精度粗糙集的理论将属性重要度作为选择分离属性的标准.经实验证明,使用该方法构造的决策树与经典ID3决策树算法相比,具有复杂性低,能有效提高分类效果的优点.  相似文献   

3.
一种基于信息熵建立决策树的算法   总被引:2,自引:0,他引:2  
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。  相似文献   

4.
针对构造决策树时,分类属性的选择直接影响分类效果的问题,提出了一种新的属性选择分类标准——集合分类粗糙度,该标准结合了ROUGH集知识表示与决策树构造的特性,能在总数不变的情况下,使叶结点的层次在一定程度上上浮.  相似文献   

5.
针对构造决策树时,分类属性的选择直接影响分类效果的问题,提出了一种新的属性选择分类标准——集合分类粗糙度,该标准结合了ROUGH集知识表示与决策树构造的特性,能在总数不变的情况下,使叶结点的层次在一定程度上上浮.  相似文献   

6.
为了更高效准确地检测到P2P数据流,将目前在数据挖掘等领域比较成熟的决策树分类技术应用到截包分析研究中.在实际应用中,通过对流的特征属性进行计算统计处理作为训练样本集建立决策树,并对建立的决策树进行剪技优化,实验表明决策树分类技术更能快速准确地定位P2P数据流,在实时处理大量数据方面更能体现决策树分类技术的效率与准确度.  相似文献   

7.
决策树是数据挖掘技术中的重要方法,主要用于分类和预测.本文介绍了决策树算法中应用最广泛的ID3算法和C4.5算法,阐述了两种算法的主要思想,说明了构造决策树的基本步骤,对两种算法进行了分析和比较.  相似文献   

8.
基于决策树数据挖掘的分析与应用   总被引:1,自引:1,他引:0  
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

9.
基于不可分辨关系、复合运算、集合运算和逻辑运算等集合论概念,构造一种新型的多变量决策树算法。该算法包括5个步骤:依据决策属性值划分出决策类;利用决策类之间条件属性集相交判断二义性条件属性值;利用决策类各条件属性值域的不同判断独立决策条件属性值;利用决策类自身条件属性集进行复合运算,获得多变量决策方法;使用或运算符(∨)连接各个部分的决策规则以取得完整的决策规则。以决策树典型训练集(气象信息系统)为例进行验证,其结果表明,该算法行之有效。通过时间复杂度的分析结果表明,该算法较之粗糙集算法更优,而且不亚于ID3算法。    相似文献   

10.
本文介绍了一种基于粗糙集理论来构建变压器故障诊断多变量决策树的算法。该方法选择变压器故障决策表的相对于决策属性的范化作为决策树的根节点,再选择粗糙度最小的条件属性作为下一个分枝节点的检验属性,形成结构更为简洁合理的变压器故障诊断多变量决策树。通过实例比较验证了该方法的有效性。  相似文献   

11.
本文介绍了一种基于粗糙集理论来构建变压器故障诊断多变量决策树的算法。该方法选择变压器故障决策表的相对于决策属性的范化作为决策树的根节点,再选择粗糙度最小的条件属性作为下一个分枝节点的检验属性,形成结构更为简洁合理的变压器故障诊断多变量决策树。通过实例比较验证了该方法的有效性。  相似文献   

12.
Iterative Dichotomiser version3(ID3)算法是数据挖掘中经典的决策树分类算法,其核心是分裂训练集属性的选择标准,即分裂前后的信息增益量最大,用该标准选择属性时对于取值较多的属性具有较强依赖性。剖析了ID3算法存在的不足并加以改进,引入了属性关注度,提出了改进算法AAID3算法。实验表明改进算法对原ID3算法的取值偏向问题有所克服并使分类更加准确,决策树更加简明。  相似文献   

13.
以数据挖掘的决策树方法为理论基础,结合燃煤锅炉的具体特点,将基于决策树归纳分类算法运用于锅炉历史运行数据的分析中.以锅炉效率为决策目标,对不同烟气含氧量、排烟温度等属性进行分类,构建决策树模型,采用决策树归纳分类的方法挖掘出指导锅炉运行的有用规则,并对挖掘结果进行分析和评价.  相似文献   

14.
一种基于CART的决策树改进算法   总被引:4,自引:0,他引:4  
针对分析CART算法的要求被选择的属性是连续且有序的,并且只能产生两个子节点的问题,依据CART算法理论,采用A—CART算法,弥补了CART方法的不足.是一种选用离散无序的属性作为决策树的分裂节点,分裂后可以产生多个子节点的方法,并为此方法设计了分裂函数,通过一个实例给出了具体的使用方法.  相似文献   

15.
根据用户所能提供的资金和时间预算约束,针对现实中存在问题的需要,使用Lazy Decision Tree作为基本的分类方法,并给出了新的分裂属性选择标准,建立基于代价敏感的分类器。该分类器用多维代价取代前人工作中将多维代价转换成一维代价方法,在给定二维预算约束下,最大限度地减小误分类代价,获得相对最优的分类器。该分类器以实际应用为背景,具有很强的实用价值。实验证明,该方法是切实可行并有效的。  相似文献   

16.
决策树是当前预测、决策和数据挖掘中常用的方法之一。通过对决策树的生成过程进行分析,针对现有方法中决策树过度生长带来的弊端,提出了一种结合贝叶斯推理技术思想的决策树的改进方法,并给出了该方法中数据的存储结构和决策树的生成过程。该方法利用数据挖掘所产生的规则对决策树每个分支节点的分裂条件进行判断,一方面能限制决策树生长,另一方面又能帮助选择最优线路,从而使决策效率明显提高。  相似文献   

17.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential priva-cy based on the out-of-bag estim...  相似文献   

18.
C4.5作为一种重要的决策树算法尚存一些不足之处。针对C4.5对于连续属性最优分割阈值选择比较耗时的缺点,基于Fayyad边界点判定定理,提出一种改进最优阈值选择方法。针对C4.5不具备增量式学习能力的缺点,在改造树结构体的基础上,提出C4.5增量学习的改进方法。  相似文献   

19.
分类是一个重要的数据挖掘问题,在数据流上挖掘决策树分类器的关键技术是如何计算最佳分裂标准,现有的算法有的不能很好地处理数值型的属性,有的计算代价太高。本文首先采用数据结构CML(C lassMatrix List)收集计算最佳分裂标准仅需的信息;其次,将数值型的属性值分成适当的区间,根据它们gini index值的特殊性质,只需确定具有最大gini index梯度的区间,因而可以快速地计算最佳分裂点,实现在流数据上快速建立决策树。  相似文献   

20.
QPSO算法在朴素贝叶斯分类上的应用研究   总被引:1,自引:0,他引:1  
朴素贝叶斯分类假定类条件独立,使得所选数据集的条件属性集在预处理时必须进行属性约简,如果处理不当,就会造成分类的不准确.本文分别对在训练集上随机选取的属性子集组成粒子,构造适应度函数,从而构建了朴素贝叶斯分类器,并利用量子粒子群算法对分类效果进行择优操作.实验证明,其分类效果优于传统的朴素贝叶斯分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号