首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 984 毫秒
1.
针对构造决策树时,分类属性的选择直接影响分类效果的问题,提出了一种新的属性选择分类标准——集合分类粗糙度,该标准结合了ROUGH集知识表示与决策树构造的特性,能在总数不变的情况下,使叶结点的层次在一定程度上上浮.  相似文献   

2.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的标准直接影响决策树分类的效果。基于粗糙集的属性频率函数等方法度量属性重要性的概念,将其用于分枝划分属性的选择,提出一种决策树学习算法。该方法仅利用区分矩阵就可以计算出属性的出现频率函数值,计算简单。实验结果表明,用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,结构简单,且能有效提高分类效果。  相似文献   

3.
针对构造决策树时,分类属性的选择直接影响分类效果的问题,提出了一种新的属性选择分类标准——集合分类粗糙度,该标准结合了ROUGH集知识表示与决策树构造的特性,能在总数不变的情况下,使叶结点的层次在一定程度上上浮.  相似文献   

4.
基于决策树数据挖掘的分析与应用   总被引:1,自引:1,他引:0  
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

5.
为了使构造的决策树更简单,规则更容易被理解且精度更高,文章基于粗糙集理论提出了一种对属性约简及泛化的多变量决策树算法。该方法采用条件属性的加权平均粗糙度这个指标来选择测试属性构造决策树。实验表明该方法较ID3算法得到的决策树更小且分类准确率更高。文章还展望用核属性以外的条件组合属性作测试属性构造更简化的多变量决策树。  相似文献   

6.
Iterative Dichotomiser version3(ID3)算法是数据挖掘中经典的决策树分类算法,其核心是分裂训练集属性的选择标准,即分裂前后的信息增益量最大,用该标准选择属性时对于取值较多的属性具有较强依赖性。剖析了ID3算法存在的不足并加以改进,引入了属性关注度,提出了改进算法AAID3算法。实验表明改进算法对原ID3算法的取值偏向问题有所克服并使分类更加准确,决策树更加简明。  相似文献   

7.
针对传统的基于信息熵的决策树算法所存在的问题,本研究从粗糙集理论的角度来考虑信息熵,定义了依赖决策熵的概念,并提出一种基于依赖决策熵的决策树算法DTDDE。在DTDDE算法中,采用依赖决策熵的概念来度量每个条件属性的重要性,并选择重要性最大的属性作为当前的分离属性。通过在多个UCI数据集上的实验表明:与现有的决策树算法相比,本研究所提出的算法能够获得更好的分类性能。  相似文献   

8.
基于通信系统的决策树构造算法   总被引:1,自引:1,他引:0  
决策树构造过程中的属性选择标准一直是数据挖掘领域的研究热点。本研究在分析ID3算法和C4.5算法属性选择策略的基础上,基于通信系统中的平均自信息与平均互信息提出了两种决策树的构造算法。研究过程中从理论证明了所提出的两种算法与ID3算法以及C4.5算法是等价的,即,信息增益等价于通信系统中的平均互信息,而信息增益率等价于通信系统中平均互信息与平均自信息的比值。在AllElectronics数据集进行的实验表明:与信息增益和信息增益率相比,本研究提出的属性选择标准具有计算方便、且容易理解的特点。  相似文献   

9.
针对在C4.5决策树构造过程中,测试属性选择未考虑属性之间影响的缺点,提出了一种改进的C4.5决策算法.该算法使用一个属性与其他属性的平均信息熵表示这个属性与其他属性的冗余度,然后在选择测试属性的过程中,加入测试属性与其他属性的冗余度,通过信息增益、分裂熵和冗余度三个因素的评价,选择信息增益率高而与其他属性冗余度低的测试属性.实验结果表明,在选定的实验数据集上,改进后的C4.5决策树算法平均分类正确率提高.  相似文献   

10.
基于ID3算法的考试成绩分析决策树的构造   总被引:1,自引:0,他引:1  
决策树是数据挖掘任务中分类的常用算法,ID3算法是决策树学习的核心算法.论述了ID3算法的基本思想和实现方法,分析了节点选择的方法,并根据ID3算法构造了考试成绩分析决策树,同时针对算法的缺点提出了改进意见.  相似文献   

11.
1 Introduction D atabases are rich w ith hidden inform ation that can be used for m aking intelligentbusiness decisions. C lassification is one form of data analysis thatcan be used to extractm odels describing im portantdata class- es.There have m any ap…  相似文献   

12.
基于决策树的就业数据挖掘   总被引:12,自引:0,他引:12  
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。  相似文献   

13.
决策树方法是一种重要的可完成分类任务的知识发现技术 ,目的是通过构造一个分类模型 ,把数据库中的元组映射到给定类别中的某一个。决策树分类算法效率高且应用广泛 ,但是不能处理在决策树的构建和分类过程中的不确定数据。针对决策树分类算法的局限 ,利用证据理论是对概率论的扩展 ,将置信函数与概率的上下值相联系 ,可用于不确定数据的表达这个有力工具 ,把决策树分类技术扩展到含有不确定数据的环境中 ,提出了 D- S决策树分类算法。实验结果表明 D- S决策树分类算法能有效的对不确定数据进行分类。  相似文献   

14.
一种非线性支持向量机决策树多值分类器   总被引:1,自引:0,他引:1  
提出了一种非线性支持向量机决策树的分类算法.该算法通过核函数将支持向量机推广到非线性支持向量机,并在非线性映射后计算特征空间中类间相对分离度,得到类的易分程度.在支持向量机决策树分类中引入相对分离度,有效地降低累积误差,减少计算规模,从而提高分类精度与分类效率.实验结果表明,与一般的线性支持向量机决策树分类算法相比,该算法的分类精度有了明显提高,同时其分类时间也相应降低.  相似文献   

15.
以数据挖掘的决策树方法为理论基础,结合燃煤锅炉的具体特点,将基于决策树归纳分类算法运用于锅炉历史运行数据的分析中.以锅炉效率为决策目标,对不同烟气含氧量、排烟温度等属性进行分类,构建决策树模型,采用决策树归纳分类的方法挖掘出指导锅炉运行的有用规则,并对挖掘结果进行分析和评价.  相似文献   

16.
一种基于信息熵建立决策树的算法   总被引:2,自引:0,他引:2  
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号