首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

2.
参数估计决策树算法   总被引:1,自引:0,他引:1  
本文提出了一种新的决策树算法.引入了基于统计估计的方法,并针对学习问题做了修正,同时考虑了特征提取和特征选择的因素.基于UCI数据的实验结果以及实际应用的测试结果都表明,本文方法比C4.5的判决精度更高,计算速度更快.  相似文献   

3.
基于决策树规则的分类算法研究   总被引:1,自引:0,他引:1  
在商业利益的驱动下,人们不断地深入研究决策树算法.为了提高分类的精度,提出了一种基于决策树规则的分类算法.通过C4.5决策树算法得出决策规则,计算决策规则的长度,准确率与覆盖率,对所得的决策规则依次按照规则长度与准确率的乘积大小、长度的大小、覆盖率的大小对规则集进行排序构造分类器,选择优选权最高的规则进行匹配分类.实验结果表明,与C4.5算法相比,该方法的分类精度有所提高.  相似文献   

4.
税收信用分类管理在税务系统中起着重要作用,应用分类算法解决税收信用等级手工评定问题是当前税务系统的难题之一.决策树算法是分类算法中一类重要算法,其中以C4.5算法最为经典,但该算法在连续属性离散化方面花费时间成本较多.该文在C4.5连续属性离散化算法基础上引入基于经验值的窗口分割技术,在保证生成决策树准确率的前提下,有效的提高了算法运行效率.应用改进算法构造税收信用等级判定决策树,并根据构造的决策树实现对纳税人税收信用等级的自动判决.  相似文献   

5.
仝小敏  张艳宁  杨涛 《自动化学报》2011,37(12):1483-1494
基于增量子空间的目标跟踪算法多数不加选择地将检测到的目标作为模板训练的样本, 并以固定频率更新模板, 这种无反馈闭环机制使得算法在目标外观模型发生变化、 光照变化等复杂条件下难以鲁棒跟踪目标, 一旦跟踪失败很难从错误中恢复. 为此, 我们提出一种反馈闭环跟踪算法, 在增量子空间粒子滤波跟踪框架下, 引入跟踪状态判决作为后续模板更新依据. 通过判决反馈信息选择合适的样本适时更新模板, 有效克服目标外观模型的变化, 持续跟踪目标. 实验结果表明, 由于引入跟踪状态判决, 在目标外观变化、光照变化等情况下, 本算法能够以与环境相适应的频率及时更新模板, 提高跟踪精度, 实验结果验证了本文算法的鲁棒性和有效性.  相似文献   

6.
决策树分类算法C4.5中连续属性过程处理的改进   总被引:1,自引:1,他引:0  
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

7.
针对决策树C4.5算法处理小规模缺失数据以及二义性数据时不稳定、效率低,以及在分裂节点时条件属性之间关系的问题,提出了一种在决策树C4.5算法与朴素贝叶斯算法结合的基础上,引入Fleiss’ Kappa系数的改进算法,从而解决了C4.5算法在处理小规模缺失数据、二义数据效率低以及条件属性之间相关性的问题。通过理论分析和在标准UCI数据集实验结果表明,该算法在牺牲一定执行效率的基础上,分类精度得到明显的提高。  相似文献   

8.
王伟  谢耀滨  尹青 《计算机应用》2019,39(3):623-628
针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题,提出了C4.5决策树的三种改进方法--C4.5+δ、均匀分布熵(UDE)和改进分布熵函数(IDEF)。首先,推导了C4.5算法中属性选择准则会倾向于选择偏斜划分的属性;然后,分析了偏斜划分使得异常(少数类)检测精度下降的原因;其次,分别通过引入缓和因子、均匀分布熵或替换分布熵函数改进了C4.5算法的属性选择准则--信息增益率;最后,利用WEKA平台和NSL-KDD数据集对改进的决策树进行验证。实验结果表明,三种改进方法均能提高异常检测精度。其中,相比于C4.5,C4.5+7、UDE和IDEF算法在KDDTest-21数据集上的少数类检测精度(灵敏度)分别提高了3.16、3.02和3.12个百分点,均优于采用Rényi熵和Tsallis熵作为分裂准则的方法。此外,利用三种改进的决策树检测工业控制系统中的异常,不仅可以提高异常的查全率还能减小误报率。  相似文献   

9.
针对网络恶意软件威胁日益严重等问题,研究了恶意软件常采用的通信方式——隧道技术,并提出了一种基于C4.5的HTTP隧道检测算法.该算法采用决策支持树算法C4.5提取网络流特征字段,根据特征字段生成训练数据建立HTTP隧道分类的决策树检测模型,采用该分类模型检测HTTP隧道流,为检测恶意软件提供依据.实验结果表明,与同类算法相比,该算法不依赖样本空间的分布,能准确地检测HTTP隧道流,具有良好的有效性和稳定性.  相似文献   

10.
利用智能优化算法挖掘模糊分类规则能够解决模糊前件参数和无关项的组合优化问题,但也存在依赖初始规则以及更新过程无指导等缺陷,导致分类精度难以保证.为此,本文以二型模糊规则分类系统为框架,采用模糊聚类得到代表性样本并启发式的产生初始规则,以量子等位基因形式对规则进行编码生成多初始种群,根据基因的优良性,以变尺度变异操作实现等位基因的指导性进化.在此基础上,利用矛盾规则重构机制,提高模糊规则分类系统的精度.将所提出算法与FH–GBML–IVFS–Amp算法和GAGRAD算法进行了分类精度对比,并在不同噪声水平下,与C4.5算法、朴素贝叶斯分类器和BP神经网络进行分类鲁棒性比较,实验结果表明所提出算法具有较好分类精度与鲁棒性.  相似文献   

11.
网络流量的决策树分类   总被引:2,自引:1,他引:1  
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率.  相似文献   

12.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

13.
针对传统的基于传输层端口和基于特征码的流量分类技术准确率低、应用范围有限等缺点,提出了使用树扩展的贝叶斯分类器的方法,该方法利用网络流量的统计属性和基于统计理论的贝叶斯方法构建分类模型,并利用该模型对未知流量进行分类。实验分析了不同权值、不同规模的数据集对其性能的影响,并与NB、C4.5算法做了比较。实验结果表明,该方法具有较好的分类性能和较高的分类准确率。  相似文献   

14.
目前客户流失预测面临的主要问题之一就是类不平衡性(class imbalance)。针对这个问题,首先应用欠抽样法(undersampling)处理客户流失数据降低不平衡性,再应用C4.5D、C4.5N、RIPPER、NaiveBayes和RandomForest机器学习方法对客户流失进行预测。实验结果表明,欠抽样法是在牺牲负类样本预测精度的前提下,提高正类预测精度,于是采用重复抽样法(resampling)来弥补欠抽样法的缺陷,减少负类样本中含有大量有用信息的丢失,实验结果证明了这种方法的正确性和有效性  相似文献   

15.
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4.5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。  相似文献   

16.
张宏莉  鲁刚 《软件学报》2012,23(6):1500-1516
网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量.  相似文献   

17.
针对C4.5决策树构造复杂、分类精度不高等问题,提出了一种基于变精度粗糙集的决策树构造改进算法.该算法采用近似分类质量作为节点选择属性的启发函数,与信息增益率相比,该标准更能准确地刻画属性分类的综合贡献能力,同时对噪声有一定的抑制能力.此外还针对两个或两个以上属性的近似分类质量相等的特殊情形,给出了如何选择最优的分类属...  相似文献   

18.
现有的Web信息搜索方式是基于关键词匹配来进行的,其准确性和可靠性有限。本文以用户需求为中心,收集用户偏好,应用后台软件采用C4.5决策树算法构建文件过滤规则,结合基于主观Bayes方法的不确定性推理为过滤规则追加可信度支持,并用模糊规则来描述,确保Web信息搜索的查全率和查准率全面提升。  相似文献   

19.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号