首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
网络流量分类与应用识别的研究*   总被引:1,自引:0,他引:1  
首先介绍了网络流量分析的不同层次及机器学习领域的相关知识,分析了采用端口号映射及有效负载分析的方法进行流量分类与应用识别存在的问题;然后从网络流量的统计特征出发,重点介绍了机器学习中聚类和分类的方法在流量分类的应用和问题;最后基于聚类和分类在流量分类中的效用,指出了未来的研究趋势。  相似文献   

2.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

3.
SSH作为一种加密通讯协议,不仅为远程登录等服务提供了安全保障,其隧道应用还可以封装一些其他未知应用,对网络安全产生了一定的潜在影响,因此需要准确识别出这些应用,并及时采取相应措施,维护网络安全.由于SSH协议的加密特性,通常采用基于流量统计特征的方法对其进行识别,且多是采用有监督的机器学习方法.通过对无监督机器学习方法与有监督机器学习方法的对比,比较了C4.5,SVM,BayesNet,K-means,EM这5种机器学习方法对SSH应用的分类效果,证实了通过机器学习方法来识别SSH应用是可行的.实验结果显示无监督的K-means方法具有最好的分类效果,对SSH隧道中的HTTP应用的识别准确率最高,达到了99%以上.  相似文献   

4.
进行基于表征学习的网络游戏流量识别研究.首先,由于流量识别领域公开数据集中缺乏游戏流量,采集各类游戏流量,并建立各种游戏与进程端口的映射关系,基于该映射关系从采集的流量中过滤游戏流量,扩展公开数据集;利用深度学习中的表征学习模型,对经过预处理的原始端到端游戏流量自动进行特征学习和特征选择;最后用分类器进行游戏类别识别.通过构建特征空间由卷积神经网络自学习原始信息的特征,成功避免传统机器学习算法中流量数据集的二次处理导致的信息丢失以及流量分类模型对特征选择的依赖.实验结果表明,相比于原数据集的分类效果,扩充后的数据集在神经网络模型上的分类准确率提高了5%,游戏流量识别准确率达到92%,识别性能明显提升.  相似文献   

5.
针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法.已知仅有正例文本的情况下,引入k-means 聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器.基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器.实验结果表明,该方法取得了较好的分类效果.  相似文献   

6.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

7.
移动互联网流量分类/聚类是有效管理网络流量的重要基础,但是已有文献采集的移动互联网流量数据来源不同、流量数据标签级别不同、描述流量数据的特征集合不同,所获得的实验结果无法进行直接比较。借助于MobileGT系统采集移动App产生的网络流量数据,从两种粒度标记流量数据(App级别和功能级别),以单向流和双向流分别获取不同的特征集合,进而综合性实验分析各种机器学习算法在不同标记粒度和不同特征集合描述的移动互联网流量数据上的分类/聚类性能。实验结果表明,在流统计特征方面,基于单向流的统计特征更优;在分类算法方面,随机森林和AdaBoost算法更优;在聚类算法方面,K-均值方法更优。  相似文献   

8.
张宏莉  鲁刚 《软件学报》2012,23(6):1500-1516
网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量.  相似文献   

9.
《微型机与应用》2015,(23):7-10
针对传统的机器学习算法对不平衡数据集的少类分类准确率不高的问题,基于支持向量机和模糊聚类,提出一种不平衡数据加权集成学习算法。首先提出加权支持向量机模型(Weighted Support Vector Machine,WSVM),该模型根据不同类别数据所占比例的不同,为各类别分配不同的权重,然后将WSVM与模糊聚类结合提出一种新的集成学习算法。将本文提出的算法应用于人造数据集和UCI数据集实验中,实验结果表明,所提出的算法能够有效地解决不平衡数据的分类问题,具有更好的分类性能。  相似文献   

10.
基于复杂网络社团划分的网络流量分类   总被引:1,自引:0,他引:1  
随着网络的高速发展以及各种应用的不断涌现,采用端口号映射或有效负载分析的方法进行流量分类与应用识别已难以满足应用的需求。以流为网络节点、流之间统计特征的相似度为边,构建流相关网络模型,利用Newman快速社团划分算法(NFCD)对流相关网络模型进行社团划分,得到了流的聚类结果,实现了网络流量的分类,并与先前的两种无监督的流量分类算法(K-Means,DBSCAN)进行了对比。实验结果显示,利用NFCD算法具有更高的准确率,并能产生更好的聚类效果,且不受输入参数影响。  相似文献   

11.
传统的基于端口的流量分类方法和基于DPI技术的流量分类方法由于P2P技术和加密技术的流行而开始失效。基于网络流特征及机器学习的流量分类方法因为克服了上述弊端而成为了流量分类领域的研究热点。实际网络环境中,“大象流”和“老鼠流”在数量和传输字节量等方面存在着严重的不平衡,降低了基于机器学习流量分类方法的实际分类效果。针对...  相似文献   

12.
恶意加密流量识别公开数据集中存在的类不平衡问题,严重影响着恶意流量预测的性能。本文提出使用深度生成对抗网络DGAN中的生成器和鉴别器,模拟真实数据集生成并扩展小样本数据,形成平衡数据集。此外,针对传统机器学习方法依赖人工特征提取导致分类准确度下降等问题,提出一种基于双向门控循环单元BiGRU与注意力机制相融合的恶意流量识别模型,由深度学习算法自动获取数据集不同时序的重要特征向量,进行恶意流量得识别。实验表明,与常用恶意流量识别算法相比,该模型在精度、召回率、F1等指标上都有较好的提升,能有效实现恶意加密流量的识别。  相似文献   

13.
针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。  相似文献   

14.
Network traffic classification based on ensemble learning and co-training   总被引:4,自引:0,他引:4  
Classification of network traffic is the essential step for many network researches. However,with the rapid evolution of Internet applications the effectiveness of the port-based or payload-based identifi-cation approaches has been greatly diminished in recent years. And many researchers begin to turn their attentions to an alternative machine learning based method. This paper presents a novel machine learning-based classification model,which combines ensemble learning paradigm with co-training tech-niques. Compared to previous approaches,most of which only employed single classifier,multiple clas-sifiers and semi-supervised learning are applied in our method and it mainly helps to overcome three shortcomings:limited flow accuracy rate,weak adaptability and huge demand of labeled training set. In this paper,statistical characteristics of IP flows are extracted from the packet level traces to establish the feature set,then the classification model is created and tested and the empirical results prove its feasibility and effectiveness.  相似文献   

15.
Internet traffic classification is a critical and essential functionality for network management and security systems. Due to the limitations of traditional port-based and payload-based classification approaches, the past several years have seen extensive research on utilizing machine learning techniques to classify Internet traffic based on packet and flow level characteristics. For the purpose of learning from unlabeled traffic data, some classic clustering methods have been applied in previous studies but the reported accuracy results are unsatisfactory. In this paper, we propose a semi-supervised approach for accurate Internet traffic clustering, which is motivated by the observation of widely existing partial equivalence relationships among Internet traffic flows. In particular, we formulate the problem using a Gaussian Mixture Model (GMM) with set-based equivalence constraint and propose a constrained Expectation Maximization (EM) algorithm for clustering. Experiments with real-world packet traces show that the proposed approach can significantly improve the quality of resultant traffic clusters.  相似文献   

16.
Improving accuracies of machine learning algorithms is vital in designing high performance computer-aided diagnosis (CADx) systems. Researches have shown that a base classifier performance might be enhanced by ensemble classification strategies. In this study, we construct rotation forest (RF) ensemble classifiers of 30 machine learning algorithms to evaluate their classification performances using Parkinson's, diabetes and heart diseases from literature.While making experiments, first the feature dimension of three datasets is reduced using correlation based feature selection (CFS) algorithm. Second, classification performances of 30 machine learning algorithms are calculated for three datasets. Third, 30 classifier ensembles are constructed based on RF algorithm to assess performances of respective classifiers with the same disease data. All the experiments are carried out with leave-one-out validation strategy and the performances of the 60 algorithms are evaluated using three metrics; classification accuracy (ACC), kappa error (KE) and area under the receiver operating characteristic (ROC) curve (AUC).Base classifiers succeeded 72.15%, 77.52% and 84.43% average accuracies for diabetes, heart and Parkinson's datasets, respectively. As for RF classifier ensembles, they produced average accuracies of 74.47%, 80.49% and 87.13% for respective diseases.RF, a newly proposed classifier ensemble algorithm, might be used to improve accuracy of miscellaneous machine learning algorithms to design advanced CADx systems.  相似文献   

17.
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。  相似文献   

18.
半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号