共查询到18条相似文献,搜索用时 62 毫秒
1.
针对决策者在面对几个分类结果时会有选择其中某一个结果的倾向性这一事实,提出了一种基于相关性的类偏好敏感决策树分类算法(CPSDT)。该算法引入了类偏好度、偏好代价矩阵等概念。为弥补在传统决策树构造过程中,选择分裂属性时未考虑非类属性之间相关性的不足,该算法在进行学习之前先采用基于相关性的特征预筛选排除属性冗余并重新构造了基于相关性的属性选择因子。经实验证明,该算法能够有效减小决策树规模,且能够在实现对偏好类的高精度预测的同时保证决策树拥有较好的整体精度。 相似文献
2.
3.
目前,已有许多种构建决策树的方法。大多数是基于信息熵的,例如,ID3算法,Min-Ambiguity算法以及它们的变异。文中提出了一种新的启发式算法,它是基于属性对于分类的重要程度的。在选择扩展属性时,有两个选择,即敏感属性和不敏感属性,通常人们习惯选择敏感属性而忽视了不敏感属性。文章主要将其应用到了几个具有符号型属性类分明的数据库。根据对几个数据库所做的实验,对这两种方法从几方面进行了比较,指出了他们各自的利弊所在。 相似文献
4.
首先引入相对等待时间代价,将它与测试代价一起称为有形代价,利用单位有形代价中无形代价(即误分类代价)降低最多的原则选择分裂属性;然后结合序列测试策略和批量测试策略建立相对等待时间代价敏感决策树。实验结果显示,该方法无论在误分类代价的减少量上还是所需有形代价的数量上都优于存在的算法,并且实验地分析了建立代价敏感决策树考虑相对等待时间是必要的。 相似文献
5.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度. 相似文献
6.
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性. 相似文献
7.
8.
9.
《计算机应用与软件》2016,(7)
针对ID3算法多值偏向及误分类代价被忽视的问题,结合属性相似度和代价敏感学习,提出基于均衡系数的决策树优化算法。该算法既克服了多值偏向,又考虑了误分类代价问题。首先引进属性相似度和性价比值两者的均衡系数,对ID3算法进行改进;然后运用麦克劳林公式对ID3算法进行公式简化;最后将算法改进和公式简化相结合,得到基于均衡系数的决策树优化算法。实验结果表明,基于均衡系数的决策树优化算法,既能够提高分类精度,缩短决策树生成时间,又能考虑代价问题并降低误分类代价,还能克服多值偏向问题。 相似文献
10.
11.
12.
随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全健康的网络环境。为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。该算法不依赖词典与分词,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本。实验结果表明,SWDT-IFA算法具有较高的查准率和查全率,且执行时间能够满足当前网络环境的实时性要求。 相似文献
13.
14.
一种改进的决策树后剪枝算法磁 总被引:1,自引:0,他引:1
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。 相似文献
15.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。 相似文献
16.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。 相似文献
17.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的IDB算法结构简单,并且能提高分类效率。 相似文献
18.
决策树算法是一种采用分治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的.文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值.实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略. 相似文献