首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 703 毫秒
1.
网络流量分类与应用识别的研究*   总被引:1,自引:0,他引:1  
首先介绍了网络流量分析的不同层次及机器学习领域的相关知识,分析了采用端口号映射及有效负载分析的方法进行流量分类与应用识别存在的问题;然后从网络流量的统计特征出发,重点介绍了机器学习中聚类和分类的方法在流量分类的应用和问题;最后基于聚类和分类在流量分类中的效用,指出了未来的研究趋势。  相似文献   

2.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

3.
获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.  相似文献   

4.
SSH作为一种加密通讯协议,不仅为远程登录等服务提供了安全保障,其隧道应用还可以封装一些其他未知应用,对网络安全产生了一定的潜在影响,因此需要准确识别出这些应用,并及时采取相应措施,维护网络安全.由于SSH协议的加密特性,通常采用基于流量统计特征的方法对其进行识别,且多是采用有监督的机器学习方法.通过对无监督机器学习方法与有监督机器学习方法的对比,比较了C4.5,SVM,BayesNet,K-means,EM这5种机器学习方法对SSH应用的分类效果,证实了通过机器学习方法来识别SSH应用是可行的.实验结果显示无监督的K-means方法具有最好的分类效果,对SSH隧道中的HTTP应用的识别准确率最高,达到了99%以上.  相似文献   

5.
进行基于表征学习的网络游戏流量识别研究.首先,由于流量识别领域公开数据集中缺乏游戏流量,采集各类游戏流量,并建立各种游戏与进程端口的映射关系,基于该映射关系从采集的流量中过滤游戏流量,扩展公开数据集;利用深度学习中的表征学习模型,对经过预处理的原始端到端游戏流量自动进行特征学习和特征选择;最后用分类器进行游戏类别识别.通过构建特征空间由卷积神经网络自学习原始信息的特征,成功避免传统机器学习算法中流量数据集的二次处理导致的信息丢失以及流量分类模型对特征选择的依赖.实验结果表明,相比于原数据集的分类效果,扩充后的数据集在神经网络模型上的分类准确率提高了5%,游戏流量识别准确率达到92%,识别性能明显提升.  相似文献   

6.
针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法.已知仅有正例文本的情况下,引入k-means 聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器.基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器.实验结果表明,该方法取得了较好的分类效果.  相似文献   

7.
分类学习方法有一个基本假设,即不同类别的样本数量相当。样本数量分布不均衡,会影响分类的准确率。针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority oversampling technique,CMOT),避免了算法“对少数类不友好”的情况。具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构。其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡。对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到98.79%,明显高于其他方法。CMOT方法能够捕获少数类样本的真实特征,产生的伪样本足以平衡数据集,进而提升分类模型的精度。  相似文献   

8.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

9.
移动互联网流量分类/聚类是有效管理网络流量的重要基础,但是已有文献采集的移动互联网流量数据来源不同、流量数据标签级别不同、描述流量数据的特征集合不同,所获得的实验结果无法进行直接比较。借助于MobileGT系统采集移动App产生的网络流量数据,从两种粒度标记流量数据(App级别和功能级别),以单向流和双向流分别获取不同的特征集合,进而综合性实验分析各种机器学习算法在不同标记粒度和不同特征集合描述的移动互联网流量数据上的分类/聚类性能。实验结果表明,在流统计特征方面,基于单向流的统计特征更优;在分类算法方面,随机森林和AdaBoost算法更优;在聚类算法方面,K-均值方法更优。  相似文献   

10.
张宏莉  鲁刚 《软件学报》2012,23(6):1500-1516
网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量.  相似文献   

11.
传统的基于端口的流量分类方法和基于DPI技术的流量分类方法由于P2P技术和加密技术的流行而开始失效。基于网络流特征及机器学习的流量分类方法因为克服了上述弊端而成为了流量分类领域的研究热点。实际网络环境中,“大象流”和“老鼠流”在数量和传输字节量等方面存在着严重的不平衡,降低了基于机器学习流量分类方法的实际分类效果。针对...  相似文献   

12.
恶意加密流量识别公开数据集中存在的类不平衡问题,严重影响着恶意流量预测的性能。本文提出使用深度生成对抗网络DGAN中的生成器和鉴别器,模拟真实数据集生成并扩展小样本数据,形成平衡数据集。此外,针对传统机器学习方法依赖人工特征提取导致分类准确度下降等问题,提出一种基于双向门控循环单元BiGRU与注意力机制相融合的恶意流量识别模型,由深度学习算法自动获取数据集不同时序的重要特征向量,进行恶意流量得识别。实验表明,与常用恶意流量识别算法相比,该模型在精度、召回率、F1等指标上都有较好的提升,能有效实现恶意加密流量的识别。  相似文献   

13.
针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。  相似文献   

14.
Network traffic classification based on ensemble learning and co-training   总被引:4,自引:0,他引:4  
Classification of network traffic is the essential step for many network researches. However,with the rapid evolution of Internet applications the effectiveness of the port-based or payload-based identifi-cation approaches has been greatly diminished in recent years. And many researchers begin to turn their attentions to an alternative machine learning based method. This paper presents a novel machine learning-based classification model,which combines ensemble learning paradigm with co-training tech-niques. Compared to previous approaches,most of which only employed single classifier,multiple clas-sifiers and semi-supervised learning are applied in our method and it mainly helps to overcome three shortcomings:limited flow accuracy rate,weak adaptability and huge demand of labeled training set. In this paper,statistical characteristics of IP flows are extracted from the packet level traces to establish the feature set,then the classification model is created and tested and the empirical results prove its feasibility and effectiveness.  相似文献   

15.
Internet traffic classification is a critical and essential functionality for network management and security systems. Due to the limitations of traditional port-based and payload-based classification approaches, the past several years have seen extensive research on utilizing machine learning techniques to classify Internet traffic based on packet and flow level characteristics. For the purpose of learning from unlabeled traffic data, some classic clustering methods have been applied in previous studies but the reported accuracy results are unsatisfactory. In this paper, we propose a semi-supervised approach for accurate Internet traffic clustering, which is motivated by the observation of widely existing partial equivalence relationships among Internet traffic flows. In particular, we formulate the problem using a Gaussian Mixture Model (GMM) with set-based equivalence constraint and propose a constrained Expectation Maximization (EM) algorithm for clustering. Experiments with real-world packet traces show that the proposed approach can significantly improve the quality of resultant traffic clusters.  相似文献   

16.
Improving accuracies of machine learning algorithms is vital in designing high performance computer-aided diagnosis (CADx) systems. Researches have shown that a base classifier performance might be enhanced by ensemble classification strategies. In this study, we construct rotation forest (RF) ensemble classifiers of 30 machine learning algorithms to evaluate their classification performances using Parkinson's, diabetes and heart diseases from literature.While making experiments, first the feature dimension of three datasets is reduced using correlation based feature selection (CFS) algorithm. Second, classification performances of 30 machine learning algorithms are calculated for three datasets. Third, 30 classifier ensembles are constructed based on RF algorithm to assess performances of respective classifiers with the same disease data. All the experiments are carried out with leave-one-out validation strategy and the performances of the 60 algorithms are evaluated using three metrics; classification accuracy (ACC), kappa error (KE) and area under the receiver operating characteristic (ROC) curve (AUC).Base classifiers succeeded 72.15%, 77.52% and 84.43% average accuracies for diabetes, heart and Parkinson's datasets, respectively. As for RF classifier ensembles, they produced average accuracies of 74.47%, 80.49% and 87.13% for respective diseases.RF, a newly proposed classifier ensemble algorithm, might be used to improve accuracy of miscellaneous machine learning algorithms to design advanced CADx systems.  相似文献   

17.
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。  相似文献   

18.
半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号