首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于决策树的流量分类方法*   总被引:4,自引:1,他引:3  
徐鹏  林森  刘琼 《计算机应用研究》2008,25(8):2484-2487
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。  相似文献   

2.
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别.  相似文献   

3.
P2P流量逐渐成为互联网流量的重要组成部分,精确分类P2P流量对于有效管理网络和合理利用网络资源都具有重要意义。近年来,利用机器学习方法处理P2P流量分类问题已成为流量识别领域的一个新兴研究方向。利用决策树中的C4.5算法和P2P流量的特征属性来构建决策树模型,进而完成P2P流量分类问题。实验结果表明,基于决策树模型的方法能有效避免P2P网络流分布变化所带来的不稳定性;与SVM(support vector machine,支持向量机)、NBK(nave Bayes using kernel densi  相似文献   

4.
天地一体化智能网络规模大,环境复杂,网络中流量业务类型繁多且流量具有突发性.本文结合Spark大数据分布式平台,根据流量的特点设计了SFFS-FCBF-C4.5(简称SFC)决策树分类模型,实现了大规模网络下流量的实时分类,以保障网络中资源的合理分配和利用.SFC算法是在C4.5决策树算法的基础上结合了改进后的快速相关滤波算法(Fast Correlation-Based Filter Solution, FCBF)和连续型属性值离散化算法,可以在有效去除冗余特征和降低模型复杂度的同时,提高模型分类的速度和准确率.仿真结果表明,SFC决策树分类模型相比传统的流量分类模型具有较好的稳定性和较高的准确率,可以很好的适应复杂多变的网络环境.同时,Spark大数据分布式平台的应用大幅度提高了大规模网络下流量分类的速度,能够对海量流量进行实时分类.  相似文献   

5.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

6.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

7.
针对网络恶意软件威胁日益严重等问题,研究了恶意软件常采用的通信方式——隧道技术,并提出了一种基于C4.5的HTTP隧道检测算法.该算法采用决策支持树算法C4.5提取网络流特征字段,根据特征字段生成训练数据建立HTTP隧道分类的决策树检测模型,采用该分类模型检测HTTP隧道流,为检测恶意软件提供依据.实验结果表明,与同类算法相比,该算法不依赖样本空间的分布,能准确地检测HTTP隧道流,具有良好的有效性和稳定性.  相似文献   

8.
基于支持向量机的Internet流量分类研究   总被引:12,自引:0,他引:12  
准确的网络流量分类是众多网络研究工作的基础,也一直是网络测量领域的研究热点.近年来,利用机器学习方法处理流量分类问题成为了该领域一个新兴的研究方向.在目前研究中应用较多的是朴素贝叶斯(naive Bayes,NB)及其改进算法.这些方法具有实现简单、分类高效的特点.但该方法过分依赖于样本空间的分布,具有内在的不稳定性.因此,提出一种基于支持向量机(sulbport vector machine,SVM)的流量分类方法.该方法利用非线性变换和结构风险最小化(structural risk minimization,SRM)原则将流量分类问题转化为二次寻优问题,具有良好的分类准确率和稳定性.在理论分析的基础上,通过在实际网络流集合上与朴素贝叶斯算法的对比实验,可以看出使用支持向量机方法处理流量分类问题,具有以下3个优势:1)网络流属性不必满足条件独立假设,无须进行属性过滤;2)能够在先验知识相对不足的情况下,仍保持较高的分类准确率;3)不依赖于样本空间的分布,具有较好的分类稳定性.  相似文献   

9.
针对现有数据安全性分类方法的分类精度和效率较低问题,提出基于关联规则算法的无线通信网络数据安全分类方法。通过关联规则挖法找出无线通信网络数据间联系,采用C4.5决策树方法实现数据安全性初步分类,利用马尔可夫链构建无线通信网络射频信号的安全性分类模型,测试结果证明:所提方法ACU面积指标接近于1,适用性强,分类精度高,且分类时间在30 min以内,能够有效提升了分类速度,鲁棒性高。  相似文献   

10.
针对现有网络流量异常检测方法准确率较低的问题,提出基于决策树的网络流量异常分析与检测方法。研究网络流量结构特征及流量异常的交叉熵表示方法。采用C4.5算法建立决策树模型,将具有连续性的属性值离散化,根据最大信息增益比逐层选取分类属性,依此规则对流量数据进行分类。实验结果表明,当该方法的检测准确率达90%以上时,误报率可控制在5%以内,与同类方法相比能更准确地发现网络流量异常并进行分类。  相似文献   

11.
The optic nerve disease is an important disease that appears commonly in public. In this paper, we propose a hybrid diagnostic system based on discretization (quantization) method and classification algorithms including C4.5 decision tree classifier, artificial neural network (ANN), and least square support vector machine (LSSVM) to diagnose the optic nerve disease from Visual Evoked Potential (VEP) signals with discrete values. The aim of this paper is to investigate the effect of Discretization method on the classification of optic nerve disease. Since the VEP signals are non-linearly-separable, low classification accuracy can be obtained by classifier algorithms. In order to overcome this problem, we have used the Discretization method as data pre-processing. The proposed method consists of two phases: (i) quantization of VEP signals using Discretization method, and (ii) diagnosis of discretized VEP signals using classification algorithms including C4.5 decision tree classifier, ANN, and LSSVM. The classification accuracies obtained by these hybrid methods (combination of C4.5 decision tree classifier-quantization method, combination of ANN-quantization method, and combination of LSSVM-quantization method) with and without quantization strategy are 84.6-96.92%, 94.20-96.76%, and 73.44-100%, respectively. As can be seen from these results, the best model used to classify the optic nerve disease from VEP signals is obtained for the combination of LSSVM classifier and quantization strategy. The obtained results denote that the proposed method can make an effective interpretation and point out the ability of design of a new intelligent assistance diagnosis system.  相似文献   

12.
网络流量的决策树分类   总被引:2,自引:1,他引:1  
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率.  相似文献   

13.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

14.
Classifying online network traffic is becoming critical in network management and security. Recently, new classification methods based on analysis of statistical features of transport layer traffic have been proposed. While these new methods address the limitations of the port based and payload based traffic classification, the current software-based solutions are not fast enough to deal with the traffic of today’s high-speed networks. In this paper, we propose an online statistical traffic classifier using the C4.5 machine learning algorithm running on the NetFPGA platform. Our NetFPGA classifier is constructed by adding three main modules to the NetFPGA reference switch design; a Netflow module, a feature extractor module, and a C4.5 search tree classifier. The proposed classifier is able to classify the input traffics at the maximum line speed of the NetFPGA platform, i.e. 8 Gbps without any packet loss. Our method is based on the statistical features of the first few packets of a flow. The flow is classified just a few micro seconds after receiving the desired number of packets.  相似文献   

15.
C4.5决策树展示算法的设计   总被引:10,自引:1,他引:10  
分析了现有的展示C4.5算法结果决策树的方法的不足,设计了一种利用多叉树结构的直接输出来实现决策树展示的算法。在客户关系管理(CRM)应用于电信运营的研究项目中,该算法在数据挖掘平台上得到应用,实践证明,提高了决策树分类的效率和展示的直观性。  相似文献   

16.
准确的流量分类是解决网络拥塞、网络安全监管、流量计费等研究的基础。为了解决在线混合流量(加密与非加密)一次性快速分类问题,本文结合传统特征提取和载荷特征提取的优点,提出五元组加载荷ASCⅡ出现频次的特征提取,并以此提出一种在线流量快速分类方法。实验表明,在相同算法下,使用本文的特征提取比使用载荷特征提取,整体分类准确率提高了近4%;基于五元组加载荷特征提取、使用C4.5算法的在线流量快速分类方法是可行的。  相似文献   

17.
Constrained cascade generalization of decision trees   总被引:1,自引:0,他引:1  
While decision tree techniques have been widely used in classification applications, a shortcoming of many decision tree inducers is that they do not learn intermediate concepts, i.e., at each node, only one of the original features is involved in the branching decision. Combining other classification methods, which learn intermediate concepts, with decision tree inducers can produce more flexible decision boundaries that separate different classes, potentially improving classification accuracy. We propose a generic algorithm for cascade generalization of decision tree inducers with the maximum cascading depth as a parameter to constrain the degree of cascading. Cascading methods proposed in the past, i.e., loose coupling and tight coupling, are strictly special cases of this new algorithm. We have empirically evaluated the proposed algorithm using logistic regression and C4.5 as base inducers on 32 UCI data sets and found that neither loose coupling nor tight coupling is always the best cascading strategy and that the maximum cascading depth in the proposed algorithm can be tuned for better classification accuracy. We have also empirically compared the proposed algorithm and ensemble methods such as bagging and boosting and found that the proposed algorithm performs marginally better than bagging and boosting on the average.  相似文献   

18.
数据挖掘原型系统GenMiner中分类挖掘模块的设计与实现   总被引:1,自引:0,他引:1  
吴湘洲  田盛丰 《计算机工程》2002,28(12):111-112,130
通用数据挖掘原型系统GenMiner中分类挖掘模块采用耗时短,分类效率高,较为成熟的决策树C4.5,介绍了该系统中分类挖掘模块的设计与实现,并说明了分类挖掘模块采用决策树C4.5的方法。  相似文献   

19.
决策树分类技术研究   总被引:28,自引:1,他引:28  
栾丽华  吉根林 《计算机工程》2004,30(9):94-96,105
决策树分类是一种重要的数据分类技术。ID3、C4.和EC4.5是建立决策树的常用算法,但目前国内对一些新的决策树分类算法研究较少。为此,在消化大量文献资料的基础上,研究了CART、SLIQ、SPRINT、PUBLIC等新算法,对各种决策树分类算法的基本思想进行阐述,并分析比较了各种算法的主要特性,为数据分类研究者提供借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号