共查询到17条相似文献,搜索用时 62 毫秒
1.
针对在C4.5决策树构造过程中,测试属性选择未考虑属性之间影响的缺点,提出了一种改进的C4.5决策算法.该算法使用一个属性与其他属性的平均信息熵表示这个属性与其他属性的冗余度,然后在选择测试属性的过程中,加入测试属性与其他属性的冗余度,通过信息增益、分裂熵和冗余度三个因素的评价,选择信息增益率高而与其他属性冗余度低的测试属性.实验结果表明,在选定的实验数据集上,改进后的C4.5决策树算法平均分类正确率提高. 相似文献
2.
《青岛科技大学学报(自然科学版)》2016,(6):687-692
针对传统的基于信息熵的决策树算法所存在的问题,本研究从粗糙集理论的角度来考虑信息熵,定义了依赖决策熵的概念,并提出一种基于依赖决策熵的决策树算法DTDDE。在DTDDE算法中,采用依赖决策熵的概念来度量每个条件属性的重要性,并选择重要性最大的属性作为当前的分离属性。通过在多个UCI数据集上的实验表明:与现有的决策树算法相比,本研究所提出的算法能够获得更好的分类性能。 相似文献
3.
提出了一种新的包分类算法SRC(sensitive recursive classification).它建立在决策树基础之上,在以防火墙, 访问控制列表为种子的规则库中进行实验.实验结果表明:SRC内存使用比Hicuts (hierarchical intelligent cuttings)减少3~10倍,最坏查找速度比Hicuts提高5倍以上;SRC的内存使用比EGT-PC(extended grid-of-tries and path compression)减少2~8倍,最坏查找速度比EGT-PC提高4倍以上. 相似文献
4.
提出了一种新的包分类算法SRC(sensitive recursive classification).它建立在决策树基础之上,在以防火墙, 访问控制列表为种子的规则库中进行实验.实验结果表明:SRC内存使用比Hicuts (hierarchical intelligent cuttings)减少3~10倍,最坏查找速度比Hicuts提高5倍以上;SRC的内存使用比EGT-PC(extended grid-of-tries and path compression)减少2~8倍,最坏查找速度比EGT-PC提高4倍以上. 相似文献
5.
6.
提出了一种基于分布多库环境下的决策树生成算法DDTA(Distributed Decision Tree Algorithm).该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性.实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的.与算法INDUS相比,该算法的通信代价小. 相似文献
7.
针对ID3算法用信息增益作为在各级非叶节点上选择属性的标准的局限性,结合统计学独立检验思想,给出一种新的属性依赖性和重要性定义,以新的属性重要性为启发式信息设计决策树规则提取算法。实例分析的结果表明,该算法能提取更为简洁有效的决策规则。 相似文献
8.
决策树构造过程中的属性选择标准一直是数据挖掘领域的研究热点。本研究在分析ID3算法和C4.5算法属性选择策略的基础上,基于通信系统中的平均自信息与平均互信息提出了两种决策树的构造算法。研究过程中从理论证明了所提出的两种算法与ID3算法以及C4.5算法是等价的,即,信息增益等价于通信系统中的平均互信息,而信息增益率等价于通信系统中平均互信息与平均自信息的比值。在AllElectronics数据集进行的实验表明:与信息增益和信息增益率相比,本研究提出的属性选择标准具有计算方便、且容易理解的特点。 相似文献
9.
在构造决策树的过程中,分离属性选择的标准直接影响分类的效果.基于变精度粗糙集的理论将属性重要度作为选择分离属性的标准.经实验证明,使用该方法构造的决策树与经典ID3决策树算法相比,具有复杂性低,能有效提高分类效果的优点. 相似文献
10.
胡玲洁 《重庆科技学院学报(自然科学版)》2010,12(6)
分析决策树的基本模型,给出决策树的方法概述.进一步对决策树的算法进行了深入的分析,最后给出了构建决策树.并且应用决策树进行线性分类和2次分类,进行了算法的实践. 相似文献
11.
为提高多模态医学影像配准的鲁棒性和精度,提出了一种基于主定序和混合熵的配准新方法.首先利用主成分分析方法定义了图像的主定序特征,描述图像邻域像素间的空间信息和微观结构特性;进而结合图像灰度信息构造了一种基于混合熵的配准测度,有效保证了配准测度函数的光滑性和收敛性.多组多模态医学影像测试结果表明,新方法能有效抑制噪声,具有很高的配准精度,鲁棒性强,优于现有的几种方法. 相似文献
12.
提出一种基于S变换和数据挖掘中决策树算法的电能质量扰动识别的方法.该方法首先用S变换对电能质量扰动波形进行时频分析,并使用统计方法提取相关特征量,然后用决策树算法对提取的特征量样本进行分类,并获得明确的分支规则.仿真结果表明,该方案正确率高,抗噪声能力强,训练样本少,响应速度快. 相似文献
13.
主要阐述了决策树学习算法在交通方式选择模型中的应用.在基本决策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型,以Bagging预测方法和CART算法为主,以随机特征选择和"投票"方法为辅,并相互融合,结合具体实例详细介绍该模型的建立,从数据的选择到整个森林中树的数目和每个结点处抽取的候选属性的个数调整,并对模型进行了相应的评估.实验结果表明,随机森林预测精度高,且对噪声数据具有较强的稳健性,采用决策树学习算法得出的规则在交通方式选择的分析中具有较好的实用价值. 相似文献
14.
提出了一类不完全信息条件下的多属性决策问题以及解决这类问题的随机模拟方法,数值实验表明这一方法具有很好的稳定性与可靠性,而且与传统方法相比,它还具有计算复杂度低、易于实现等特性. 相似文献
15.
陈红叶 《安徽工业大学学报》2003,20(3):230-232
Web作为世界上最大的信息源,为数据挖掘技术提供了大量的原始数据,但Web动态的数据环境与传统的基于稳定数据环境的挖掘方法不相适应;本文研究了如何利用决策树方法对来自Web的数据动态、及时地生成可理解的规则。 相似文献
16.
基于决策树的就业数据挖掘 总被引:12,自引:0,他引:12
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。 相似文献
17.
0 INTRODUCTIONFindingEnglishBaseNounPhrase (BNP)isanimportantresearchissueinnaturallanguageprocess ing .ItsresolutionwillpavethewayforhighqualityEnglishChinesemachinetranslation .And ,accurateidentificationofBNPisalsocrucialtoinformationre trievalsystem ,in… 相似文献