首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

2.
网络流量的决策树分类   总被引:2,自引:1,他引:1  
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率.  相似文献   

3.
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

4.
郭鹏  葛玮 《计算机工程》2009,35(24):75-77
提出一种针对客户离网问题的改进决策树分类算法——M-AdaBoost级联决策树。采用级联式的思想构造多个基于AdaBoost决策树分类器,通过设定子分类器的判决信息,组合成级联式决策树。实验结果表明,该方法相对于单一的C4.5决策树、传统的AdaBoost决策树以及随机森林具有更好的分类效果。  相似文献   

5.
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别.  相似文献   

6.
房立  黄泽宇 《微机发展》2006,16(8):106-109
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4.5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。  相似文献   

7.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

8.
基于决策树规则的分类算法研究   总被引:1,自引:0,他引:1  
在商业利益的驱动下,人们不断地深入研究决策树算法.为了提高分类的精度,提出了一种基于决策树规则的分类算法.通过C4.5决策树算法得出决策规则,计算决策规则的长度,准确率与覆盖率,对所得的决策规则依次按照规则长度与准确率的乘积大小、长度的大小、覆盖率的大小对规则集进行排序构造分类器,选择优选权最高的规则进行匹配分类.实验结果表明,与C4.5算法相比,该方法的分类精度有所提高.  相似文献   

9.
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。  相似文献   

10.
基于决策树的流量分类方法   总被引:4,自引:1,他引:3  
徐鹏  林森  刘琼 《计算机应用研究》2008,25(8):2484-2487
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。  相似文献   

11.
针对传统的流量分类方法准确率低、开销大、应用范围受限等问题,提出一种有效的网络流量分类方法(GA-LM)。该方法将基于神经网络的分类方法作为网络流量的分类模型,采用L-M算法构造分类器,并用遗传算法优化网络初始连接权值,加速了网络收敛过程,提高了分类性能。通过对收集到的实际网络流量数据进行分类,实验结果表明GA-LM比标准BP算法和L-M算法的收敛速度快,具有较好的可行性和高准确性,从而可有效地用于网络流量分类中。  相似文献   

12.
Network traffic classification is the basis of many network technologies including intrusion detection, traffic scheduling, and quality of service. Given the limitations of existing classification approaches based on the port number, the packet-payload and statistical characteristics of network traffic, in this paper we propose a novel classification method via a hidden Markov model. With the analysis about the time series characteristics and statistical properties of network traffic, we use a hidden Markov model to model for a type of traffic under the guidance of syntactic structure of it. And then a classification approach is presented based on the model. Experiment results on several typical network applications indicate that the combination of time series characteristics and the statistical properties not only make the established model more precise, but also improve the accuracy of network traffic classification.  相似文献   

13.
基于流量信息结构的异常检测   总被引:4,自引:0,他引:4  
朱应武  杨家海  张金祥 《软件学报》2010,21(10):2573-2583
由于人们对网络流量规律的认识还不够深入,大型高速网络流量的异常检测仍然是目前测量领域研究的一个难点问题.通过对网络流量结构和流量信息结构的研究发现,在一定范围内,正常网络流量的IP、端口等具有重尾分布和自相似特性等较为稳定的流量结构,这种结构对应的信息熵值较为稳定.异常流量和抽样流量的信息熵值以正常流量信息熵值为中心波动,构成以IP、端口和活跃IP数量为维度的空间信息结构.据此对流量进行建模,提出了基于流量信息结构的支持向量机(support vector machine,简称SVM)的二值分类算法,其核心是将流量异常检测转化为基于SVM的分类决策问题.实验结果表明,该算法具有很高的检测效率,还初步验证了该算法的抽样检测能力.因此,将该算法应用到大型高速骨干网络具有实际意义.  相似文献   

14.
交通预测是构建智能交通系统的重要技术,实时准确的交通预测有利于规划路线,提高出行效率。为提高交通速度预测精度,提出一种基于图卷积网络的短时交通速度预测模型。首先对交通速度数据进行时空特征分析,然后结合数据空间特性构造可学习的邻接矩阵来建立图卷积网络,同时考虑到交通数据的时间特性,因此在图卷积的基础上又添加了长短期记忆网络和注意力机制来共同构建预测模型。实验结果表明由于同时考虑了交通速度数据的时空特性,本文模型均方根误差、平均绝对误差和平均绝对百分比误差均小于传统模型和单个模型,验证了提出的模型预测精确度更高。  相似文献   

15.
互联网流量特征用于描述和测量网络流量,是开展流量分类的重要基础。为了系统性分析互联网流量特征,首先根据统计对象或统计角度研究流量特征的归类法,随后展开评述每类流量特征;针对流量特征的稳定性问题,分析报文抽样、网络环境和模糊化技术对流量特征的影响;从分类能力、稳定性、时效性和分类粒度等方面评述流量特征的优缺点,为流量统计特征应用提供指导性建议;最后总结流量特征的未来研究方向。  相似文献   

16.
Distributed Denial of Service (DDoS) attacks have been increasing with the growth of computer and network infrastructures in Ubiquitous computing. DDoS attacks generating mass traffic deplete network bandwidth and/or system resources. It is therefore significant to detect DDoS attacks in their early stage. Our previous approach used a traffic matrix to detect DDoS attacks quickly and accurately. However, it could not find out to tune up parameters of the traffic matrix including (i) size of traffic matrix, (ii) time based window size, and (iii) a threshold value of variance from packets information with respect to various monitored environments and DDoS attacks. Moreover, the time based window size led to computational overheads when DDoS attacks did not occur. To cope with it, we propose an enhanced DDoS attacks detection approach by optimizing the parameters of the traffic matrix using a Genetic Algorithm (GA) to maximize the detection rates. Furthermore, we improve the traffic matrix building operation by (i) reforming the hash function to decrease hash collisions and (ii) replacing the time based window size with a packet based window size to reduce the computational overheads. We perform experiments with DARPA 2000 LLDOS 1.0, LBL-PKT-4 of Lawrence Berkeley Laboratory and generated attack datasets. The experimental results show the feasibility of our approach in terms of detection accuracy and speed.  相似文献   

17.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。  相似文献   

18.
针对传统加密网络流量分类方法准确率较低、泛用性不强、易侵犯隐私等问题,提出了一种基于卷积神经网络的加密流量分类方法,避免依赖原始流量数据,防止过度拟合特定应用程序的字节结构。针对网络流量的数据包大小和到达时间信息,设计了一种将原始流量转换为二维图片的方法,直方图中每个单元格代表到达相应时间间隔的具有相应大小数据包的数量,不依赖数据包有效载荷,避免了侵犯隐私;针对LeNet-5卷积神经网络模型进行了优化以提高分类精度,嵌入Inception模块进行多维特征提取并进行特征融合,使用1*1卷积来控制输出的特征维度;使用平均池化层和卷积层替代全连接层,提高计算速度且避免过拟合;使用对象检测任务中的滑动窗口方法,将每个网络单向流划分为大小相等的块,确保单个会话中训练集中的块和测试集中的块没有重叠,扩充了数据集样本。在ISCX数据集上的分类实验结果显示,针对应用流量分类任务,准确率达到了95%以上。对比实验结果表明,训练集和测试集类型不同时,传统分类方法出现了显著的精度下降乃至失效,而所提方法的准确率依然达到了89.2%,证明了所提方法普适于加密流量与非加密流量。进行的所有实验均基于不平衡数据集,...  相似文献   

19.
池溢  高志伟 《计算机科学》2012,39(109):159-162
在大多数研究中,推选超级节点时重点考虑节点的性能是否适合作超级节点,而没有考虑当有节点从网络中退出或加入时,网络重新构建的开销。在选择超级节点的算法方面,很少有算法同时涉及节点的容量和在网络中的在线时间这两个参数。本算法在Alberto Montresor算法的基础上进行了改进,由信息量概念入手,将节点的容量和在线时间两个因素有机地结合起来,设计了自信息量算法模型。试验结果表明,自信息量模型网络构建的速度和单一使用节点容量构建的速度相仿,但自信息量模型推选的超级节点相对稳定,减少了网络构建的频数,从而减少了网络维护开销。该模型还能够适应一些极端情况,如试验中有50%的节点离开时,仍可较快地构建网络,说明该算法具有一定的鲁棒性。  相似文献   

20.
针对流量分类问题中,传统单一的机器学习分类算法存在分类准确率难以提升和对网络环境变化适应能力不足的缺点,提出一种多分类器集成流量分类方法。该方法结合不同算法分类器的特点,使用多数投票和实例选择集成方法实现流量分类。对比实验表明,该方法在分类准确率和算法泛化性能上的表现均有所提升,对环境变化适应能力增强。但值得注意的是,该算法比独立分类法从实现复杂度和实际运行的时间复杂度均有所增加。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号