首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对决策者在面对几个分类结果时会有选择其中某一个结果的倾向性这一事实,提出了一种基于相关性的类偏好敏感决策树分类算法(CPSDT)。该算法引入了类偏好度、偏好代价矩阵等概念。为弥补在传统决策树构造过程中,选择分裂属性时未考虑非类属性之间相关性的不足,该算法在进行学习之前先采用基于相关性的特征预筛选排除属性冗余并重新构造了基于相关性的属性选择因子。经实验证明,该算法能够有效减小决策树规模,且能够在实现对偏好类的高精度预测的同时保证决策树拥有较好的整体精度。  相似文献   

2.
阮晓宏  黄小猛  袁鼎荣  段巧灵 《计算机科学》2013,40(Z11):140-142,146
代价敏感学习方法常常假设不同类型的代价能够被转换成统一单位的同种代价,显然构建适当的代价敏感属性选择因子是个挑战。设计了一种新的异构代价敏感决策树分类器算法,该算法充分考虑了不同代价在分裂属性选择中的作用,构建了一种基于异构代价的分裂属性选择模型,设计了基于代价敏感的剪枝标准。实验结果表明,该方法处理代价机制和属性信息的异质性比现有方法更有效。  相似文献   

3.
目前,已有许多种构建决策树的方法。大多数是基于信息熵的,例如,ID3算法,Min-Ambiguity算法以及它们的变异。文中提出了一种新的启发式算法,它是基于属性对于分类的重要程度的。在选择扩展属性时,有两个选择,即敏感属性和不敏感属性,通常人们习惯选择敏感属性而忽视了不敏感属性。文章主要将其应用到了几个具有符号型属性类分明的数据库。根据对几个数据库所做的实验,对这两种方法从几方面进行了比较,指出了他们各自的利弊所在。  相似文献   

4.
基于相对等待时间的代价敏感决策树   总被引:1,自引:0,他引:1       下载免费PDF全文
首先引入相对等待时间代价,将它与测试代价一起称为有形代价,利用单位有形代价中无形代价(即误分类代价)降低最多的原则选择分裂属性;然后结合序列测试策略和批量测试策略建立相对等待时间代价敏感决策树。实验结果显示,该方法无论在误分类代价的减少量上还是所需有形代价的数量上都优于存在的算法,并且实验地分析了建立代价敏感决策树考虑相对等待时间是必要的。  相似文献   

5.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度.  相似文献   

6.
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性.  相似文献   

7.
煤矿瓦斯预警可视为是否安全的分类问题,数据呈现不平衡分布特点。为此,提出一种混合策略属性选择多决策树分类算法:算法融合代价敏感因子,结合C4.5和CART属性选择方法作为分裂指标,并采用了基于不同根节点信息的多决策树建树方法。首先采用11个非平衡数据集进行算法有效性验证,实验结果表明,该方法可以有效针对不平衡数据进行分类,保证高准确率的前提下,有效提高了少数类预测准确性;进而将该算法用于煤矿瓦斯数据预测,结果表明,所提出方法可以有效提高煤矿瓦斯数据的总体预测性能。  相似文献   

8.
传统的基于端口的流量分类方法和基于DPI技术的流量分类方法由于P2P技术和加密技术的流行而开始失效。基于网络流特征及机器学习的流量分类方法因为克服了上述弊端而成为了流量分类领域的研究热点。实际网络环境中,“大象流”和“老鼠流”在数量和传输字节量等方面存在着严重的不平衡,降低了基于机器学习流量分类方法的实际分类效果。针对...  相似文献   

9.
针对ID3算法多值偏向及误分类代价被忽视的问题,结合属性相似度和代价敏感学习,提出基于均衡系数的决策树优化算法。该算法既克服了多值偏向,又考虑了误分类代价问题。首先引进属性相似度和性价比值两者的均衡系数,对ID3算法进行改进;然后运用麦克劳林公式对ID3算法进行公式简化;最后将算法改进和公式简化相结合,得到基于均衡系数的决策树优化算法。实验结果表明,基于均衡系数的决策树优化算法,既能够提高分类精度,缩短决策树生成时间,又能考虑代价问题并降低误分类代价,还能克服多值偏向问题。  相似文献   

10.
针对推荐系统中用户兴趣的潜在性以及高时效性业务场景下用户兴趣的不稳定性和时间迁移性进行研究,提出一种基于用户潜在时效偏好的推荐方法。通过深入分析用户的历史行为与用户潜在兴趣的关系,提出基于概率主题模型的用户兴趣挖掘方法,避免了传统推荐方式对用户兴趣潜在性的忽略;同时,基于高时效业务对时间敏感性的考虑,结合隐马尔科夫模型对用户兴趣进行实时捕获,发现用户的兴趣迁移序列,并以此提出基于用户时效偏好的推荐方法。最后通过相关实验验证了所提出方法的可行性。  相似文献   

11.
决策树算法是数据挖掘中重要的分类算法。目前,已有许多构建决策树的算法,其中,ID3算法是核心算法。本文首先对ID3算法进行研究与分析,针对计算属性的信息熵十分复杂的缺点,提出了一种新的启发式算法SID3,它是基于属性对分类的敏感度的。文章最后通过实例对两种算法进行比较分析,结果表明,SID3算法能够生成正确的决策树,并且使建树过程更简便,更快速。  相似文献   

12.
随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全健康的网络环境。为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。该算法不依赖词典与分词,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本。实验结果表明,SWDT-IFA算法具有较高的查准率和查全率,且执行时间能够满足当前网络环境的实时性要求。  相似文献   

13.
赵蕊  李宏 《计算机工程》2007,33(13):87-89
提出了一种多值属性和多类标数据的决策树算法(SSC),在MMC算法中,对用孩子结点的类标集相似度来评定结点属性分类效果的计算方法进行了改进,综合考虑集合的同一性和一致性,提出了相似度评定方法,使类标集相似度的计算更加全面和准确。实验证明该算法的分类效果优于MMC算法。  相似文献   

14.
一种改进的决策树后剪枝算法磁   总被引:1,自引:0,他引:1  
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。  相似文献   

15.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。  相似文献   

16.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

17.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的IDB算法结构简单,并且能提高分类效率。  相似文献   

18.
决策树算法是一种采用分治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的.文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值.实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号