共查询到20条相似文献,搜索用时 109 毫秒
1.
本文在理论上分析比较了基于粗糙集理论的剪枝方法和C4.5中的EBP剪枝方法,并通过在多个数据集上进行实验比较,证实了基于粗糙集理论剪枝方法的优越性。 相似文献
2.
基于多策略的决策树剪枝算法及其应用 总被引:4,自引:0,他引:4
医学辅助诊断采用专家系统,针对数据挖掘在医学诊断应用,通过对经典决策树剪枝算法优缺点的分析,为满足诊断的多样性和灵活性,提出了一种基于多策略思想的剪枝算法.算法从用户需求的出发,根据不同的数据挖掘集接受对决策树模型描述性的参数,最终得到理想的决策树模型.实验结果表明,算法能够很好地平衡剪枝算法的精确性和复杂性,满足不同的医学诊断应用场景,保证了对不同数据挖掘集取得更好的适应性.应用模型建立了医学诊断辅助系统,实际试验表明达到了应用中理想的效果. 相似文献
3.
4.
传统关联规则挖掘在面临分类决策问题时,易出现非频繁规则遗漏、预测精度不高的问题。为得到正确合理且更为完整的规则,提出了一种改进方法 DT-AR(decision tree-association rule algorithm),利用决策树剪枝策略对关联规则集进行补充。该方法利用FP-Growth(frequent pattern growth)算法得到关联规则集,利用C4.5算法构建后剪枝决策树并提取分类规则,在进行置信度迭代筛选后与关联规则集取并集修正,利用置信度作为权重系数采取投票法进行分类。实验结果表明,与传统关联规则挖掘和决策树剪枝方法相比,该方法得到的规则在数据集分类结果上更准确。 相似文献
5.
利用数据挖掘技术中的决策树ID3算法分析影响学生成绩的因素并生成决策树,可以从中挖掘出隐含的、未知的、影响学生成绩的潜在因素,然而,生成的决策树通常庞大而且复杂,有必要对它进行剪枝,在有效简化决策树的基础上,保证挖掘质量,得出影响学生成绩的重要因素。 相似文献
6.
基于Min-Ambiguity启发式算法的模糊决策树整个建立过程均是在给定的一个显著性水平参数基础上进行,该参数值的选择对于模糊决策树性能将产生重要影响。文章通过实验研究表明,在某一特定取值区间内,随着该参数值的逐步增大,可以使得模糊决策树在保持提高测试精度的前提下,使树的规模逐步减小,直至到达该参数的最优值,使树成为测试精度达到最优而树规模达到最小的一棵。而再度增大的此参数值(已超出该区间)却会导致树的过度剪枝,使树的测试精度降低。最后,通过相同数据在清晰决策树系统(C4.5系统)后剪枝前后的比较试验进一步证实,在该区间内,逐步增大的此参数值对模糊决策树性能的影响等效于清晰决策树的后剪枝。 相似文献
7.
8.
决策树归纳学习算法是机器学习领域中解决分类问题的最有效工具之一。由于决策树算法自身的缺陷了,因此需要进行相应的简化来提高预测精度。模糊决策树算法是对决策树算法的一种改进,它更加接近人的思维方式。文章通过实验分析了模糊决策树、规则简化与模糊规则简化;模糊决策树与模糊预剪枝算法的异同,对决策树的大小、算法的训练准确率与测试准确率进行比较,分析了模糊决策树的性能,为改进该算法提供了一些有益的线索。 相似文献
9.
一种改进的决策树后剪枝算法磁 总被引:1,自引:0,他引:1
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。 相似文献
10.
决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力. 相似文献
11.
12.
目前关于决策树剪枝优化方面的研究主要集中于预剪枝和后剪枝算法。然而,这些剪枝算法通常作用于传统的决策树分类算法,在代价敏感学习与剪枝优化算法相结合方面还没有较好的研究成果。基于经济学中的效益成本分析理论,提出代价收益矩阵及单位代价收益等相关概念,采用单位代价收益最大化原则对决策树叶节点的类标号进行分配,并通过与预剪枝策略相结合,设计一种新型的决策树剪枝算法。通过对生成的决策树进行单位代价收益剪枝,使其具有代价敏感性,能够很好地解决实际问题。实验结果表明,该算法能生成较小规模的决策树,且与REP、EBP算法相比具有较好的分类效果。 相似文献
13.
决策树是机器学习和数据挖掘领域中一种基本的学习方法。文中分析了C4.5算法以及该算法不足之处,提出了一种决策树裁剪算法,其中以规则信息量作为判断标准。实验结果表明这种方法可以提高最终模型的预测精度,并能够很好克服数据中的噪音。 相似文献
14.
噪音数据是影响决策树训练效率和结果集质量的重要因素。目前的树剪枝方法不能消除噪音数据对选择决策树测试节点属性的影响。为改变这种状况,基于变精度Rough集(VPRS)模型,提出了一个在决策树算法中处理噪音数据的新方法---预剪枝法,该方法在进行选择属性的计算之前基于变精度正区域求取属性修正的分类模式,来消除噪音数据的对选择属性以及生成叶节点的影响。利用该方法对基本ID3决策树算法进行了改进。分析和实验表明,与先剪枝方法相比,该方法能进一步减小决策树的规模和训练时间。 相似文献
15.
决策树是数据挖掘中的一种高效方法,但是当训练数据的属性很多时,构建的决策树的规模会随属性个数增加而指数级增长,进而会产生海量的规则。针对该问题,提出了一种基于遗传算法的优化方法。首先根据信息增益利用轮盘赌方法选取若干组属性,构建多棵决策树,然后利用遗传算法对多棵决策树进行组合,并最终形成规则集。最后给出了实验结果,证明了该方法的可行性和有效性。 相似文献
16.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。 相似文献
17.
提出一种基于衰减窗口的实时数据流聚类算法PDStream。算法首先对数据空间进行网格划分,采用改进的维度树结构维护和更新数据流的摘要信息,设计了一种周期性剪枝策略,周期性地剪去维度树中的稀疏网格,最后采用深度优先搜索算法在线处理聚类请求。基于人工数据集和真实数据集的实验表明,PDStream算法可以有效地发现数据流中任意形状的聚类,内存消耗少,具有较好的计算精度。 相似文献
18.
基于粗集和熵的多变量决策树的构造算法 总被引:1,自引:0,他引:1
多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合作为节点。针对传统方法中用相对核进行多变量检验中属性选择存在的不足,首先对每个节点包含的属性个数加以限制,然后由重新定义的属性依赖度和基于条件熵的距离函数选择相关的属性组合作为节点,从而提出一种新的构造算法。实例说明,该算法不仅有效降低了树的高度,而且还兼顾了分类的可读性。 相似文献
19.
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4.5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。 相似文献
20.
基于决策树的OLAM及其应用研究 总被引:1,自引:0,他引:1
在数据挖掘的过程中,经常需要将来自不同平台、不同构架的数据进行集成分析.对此引入由联机分析处理(OLAP)和数据挖掘(DM)相结合的联机分析挖掘(OLAM)模式来抽取隐藏在相关数据集中的知识.通过利用组件、中间件技术,OLAM可以将来源不同的数据整合到目标数据仓库中,然后根据不同用户的需求,使用数据挖掘算法在不同的OLAP维度层次上进行挖掘,得到粒度不同的知识.最后利用决策树算法进行了例示说明. 相似文献