首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
决策树构造过程中的属性选择标准一直是数据挖掘领域的研究热点。本研究在分析ID3算法和C4.5算法属性选择策略的基础上,基于通信系统中的平均自信息与平均互信息提出了两种决策树的构造算法。研究过程中从理论证明了所提出的两种算法与ID3算法以及C4.5算法是等价的,即,信息增益等价于通信系统中的平均互信息,而信息增益率等价于通信系统中平均互信息与平均自信息的比值。在AllElectronics数据集进行的实验表明:与信息增益和信息增益率相比,本研究提出的属性选择标准具有计算方便、且容易理解的特点。  相似文献   

2.
CET-4是一个客观、准确的大学生英语能力测量平台,C4.5算法在应用于CET-4成绩分析中仍存在一些问题。针对运用C4.5算法对高职院校CET-4成绩数据构建分析决策树时存在的离散化运算繁琐、忽视各属性影响度等典型问题,提出一种面向高职院校CET-4成绩分析的改进C4.5算法。首先通过在C4.5算法中引入成绩正态分布规律确立初始聚类中心、K-means算法来离散连续属性;其次引入CET-4中听、读、写的权重来修正信息增益率的计算;最后运用改进的C4.5算法、经典的C4.5算法分别构建决策树模型并进行预测分析。实验结果表明,改进的C4.5算法所构建高职院校CET-4成绩分析的模型效率、预测能力均有明显提高。运用改进的C4.5算法有效地分析出影响CET-4达标各因素间的关系,从而提升CET-4反拨英语教学效应。  相似文献   

3.
基于决策树数据挖掘的分析与应用   总被引:1,自引:1,他引:0  
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

4.
针对以信息增益为划分标准的ID3算法中存在偏向属性取值多的属性等问题,提出了一种融合GINI指数的ID3改进算法。计算每个属性的信息增益和对应的GINI指数值,并计算所有属性的GINI指数算术平均值,筛选GINI指数低于算术平均值的属性记为候选属性集;从候选属性集中选择信息增益最大的属性建立分支,用递归方法构建决策树。实验使用6组UCI数据集进行验证。结果表明:该决策树的准确率均有所提高,对多值偏向问题有很好的克服作用。  相似文献   

5.
Iterative Dichotomiser version3(ID3)算法是数据挖掘中经典的决策树分类算法,其核心是分裂训练集属性的选择标准,即分裂前后的信息增益量最大,用该标准选择属性时对于取值较多的属性具有较强依赖性。剖析了ID3算法存在的不足并加以改进,引入了属性关注度,提出了改进算法AAID3算法。实验表明改进算法对原ID3算法的取值偏向问题有所克服并使分类更加准确,决策树更加简明。  相似文献   

6.
C5.0算法是一种直观、效率高的分类方法,但该算法存在信息增益率计算复杂、容易出现过拟合和决策树偏倚的问题。针对这些问题,通过公式的转换简化信息增益率的计算过程,在剪枝过程采用了损失矩阵和置信区间的结合进行剪枝判断,以及对建立的多个模型的权重进行调整,提出了一种新的C5.0改进算法,并将其应用于信贷逾期预测上。使用借款人的历史还款数据进行实验,并与其他算法进行比较,结果表明:C5.0改进算法相比其他算法具有更高的准确率和效率。  相似文献   

7.
提出一种统计与规则相结合的决策树算法进行汉语代词共指消解,利用规则过滤掉属性冲突的反例,一定程度上弥补了决策树算法忽略属性关联性的缺点。采用Chinese Treebank作为语料进行测试,手工标注其中的共指关系和特征向量;先用规则过滤,再采用C4.5决策树算法选择先行语。实验结果消解成功率为82.59%,其中人称代词和指示代词的成功率分别为87.60%和75.21%。  相似文献   

8.
C4.5算法是通过信息增益率选择相关属性,其约简性能较差,得到的分类结果较复杂,部分数据甚至会因过度拟合形成虚假规则。为了解决这个问题,提出一种新的改进算法RSC4.5,其主要思想是在C4.5的基础上结合粗糙集理论,先对属性进行约简,然后使用C4.5算法中的信息增益率对约简后的数据集进行二次选择后分类。研究结果表明,改进的算法分类准确度提高8.23%,同时分类结果的复杂度明显降低,泛化性能较好,更有利于实际应用。分类结果说明宁夏农村地区日常生活中影响高血压的因素主要是年龄、血脂和日均畜禽肉类食用量,为有效干预高血压疾病的预防治疗提供数据支持。  相似文献   

9.
C4.5作为一种重要的决策树算法尚存一些不足之处。针对C4.5对于连续属性最优分割阈值选择比较耗时的缺点,基于Fayyad边界点判定定理,提出一种改进最优阈值选择方法。针对C4.5不具备增量式学习能力的缺点,在改造树结构体的基础上,提出C4.5增量学习的改进方法。  相似文献   

10.
C4.5算法的两点改进   总被引:1,自引:0,他引:1  
C4.5作为一种重要的决策树算法尚存一些不足之处。针对C4.5对于连续属性最优分割阈值选择比较耗时的缺点,基于Fayyad边界点判定定理,提出一种改进最优阈值选择方法。针对C4.5不具备增量式学习能力的缺点,在改造树结构体的基础上,提出C4.5增量学习的改进方法。  相似文献   

11.
针对恶意代码,尤其是顽固、隐匿的未知恶意代码危害日益加剧的问题,提出一种基于肯定选择分类算法的恶意代码检测方法.将样本文件转换成十六进制格式,提取样本文件的所有n-gram,计算具有最大信息增益的N个n-gram的词频,并做归一化处理,采用改进的肯定选择分类算法进行分类.该方法保留了肯定选择分类算法高分类准确率的优点,优化了分类器训练过程,提高了训练和检测效率.结果表明,该方法的检测效果优于朴素贝叶斯、贝叶斯网络、支持向量机和C4.5决策树等算法.  相似文献   

12.
利用数据挖掘技术对当前毕业生的就业数据进行分析,发现影响就业的主要因素.其中使用C4.5算法计算了学业成绩、社团实践、获奖情况等分裂属性的增益率,以此构造决策树并对其归纳总结出一些就业规则.  相似文献   

13.
ID3算法是示例学习中建立决策树的一种重要的方法.介绍了 ID3决策树算法的基本思想,讨论了ID3决策树算法中的难点和不足,结合实例给出了利用信息增益度法来改进ID3算法的详细过程.  相似文献   

14.
基于决策树的ID3算法与C4.5算法   总被引:1,自引:0,他引:1  
论述了在数据挖掘中基于决策树的ID3算法以及C4.5算法,说明了两种算法的优缺点.通过实例解析了ID3算法和C4.5算法的实现过程,能够直观看出C4.5算法相比较与ID3算法的优越性.  相似文献   

15.
在构造决策树的过程中,分离属性选择的标准直接影响分类的效果.基于变精度粗糙集的理论将属性重要度作为选择分离属性的标准.经实验证明,使用该方法构造的决策树与经典ID3决策树算法相比,具有复杂性低,能有效提高分类效果的优点.  相似文献   

16.
针对传统差分隐私保护方案以剩余隐私预算的一半逐层分配,即等比分配隐私预算,被应用于决策树时,随着决策树高度的增加,分配至顶层的隐私预算过小,随机噪声过大,分类准确率受到影响的问题,作者提出以差分隐私保护结合主流决策树C4.5分类方法为基本思路,依据决策树高度等差分配隐私预算的方案。差分隐私中的Laplace机制和指数机制确保决策树分类的安全性。作者利用大数据Hadoop平台的MapReduce框架,主程序进行MapReduce参数配置以及外层循环。在执行到每一个节点时,主程序将数据集属性的统计任务交给Mapper类,Reducer类接收Mapper类的统计结果并利用Laplace机制添加随机噪声,加噪结果返回主程序中作为计算信息增益率的参数。主程序利用指数机制选择最佳细分方案,递归过程直至样本数为0时停止。实验采用UCI数据库的car数据集进行测试,在不同隐私预算下将等比分配与等差分配两种方案得到的分类结果准确率进行对比。实验结果表明:本文算法在可接受的分类准确率降低的情况下满足差分隐私保护;与传统隐私预算分配相比,本文算法在相同隐私预算下提高了分类准确率;对于car数据集,本文算法在隐私预算为0.7或0.8时可较好兼顾数据集的安全性和有效性。因此,在一定程度上依据决策树高度等差分配隐私预算的方案可改善分类准确率,可实际应用于决策树分类算法。  相似文献   

17.
当前,远程教学系统缺少智能性,不能提供个性化教学,引入ID3算法后可以根据学习者的特征对其分类,从而实现对不同学习者的针对性教学.然而传统的决策树ID3算法存在多值倾向的问题,选择分裂属性不符合客观事实.运用一种基于灰色关联分析的修正因子属性选择方法予以改进,对取值较多但灰色关联度低的属性,在计算其信息增益时通过灰色关联度的正弦值作为修正因子,克服传统ID3算法的不足.将改进的ID3算法引入到远程教学系统中,可以更好地对学习者进行分类以实现智能化导学.  相似文献   

18.
提出了一种基于分布多库环境下的决策树生成算法DDTA(Distributed Decision Tree Algorithm).该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性.实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的.与算法INDUS相比,该算法的通信代价小.  相似文献   

19.
分析了C4.5算法的基本思想,并提出了改进的方法,实验结果证明,该方法可为入侵检测系统生成有效的决策树.  相似文献   

20.
针对ID3算法用信息增益作为在各级非叶节点上选择属性的标准的局限性,结合统计学独立检验思想,给出一种新的属性依赖性和重要性定义,以新的属性重要性为启发式信息设计决策树规则提取算法。实例分析的结果表明,该算法能提取更为简洁有效的决策规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号