基于卡方方法及对称不确定性的网络流量特征选择方法 |
| |
引用本文: | 刘雪亚,姜志侠,徐轩,杨子帅,李林.基于卡方方法及对称不确定性的网络流量特征选择方法[J].长春理工大学学报,2019,42(2). |
| |
作者姓名: | 刘雪亚 姜志侠 徐轩 杨子帅 李林 |
| |
作者单位: | 长春理工大学 理学院,长春,130022;长春理工大学 理学院,长春,130022;长春理工大学 理学院,长春,130022;长春理工大学 理学院,长春,130022;长春理工大学 理学院,长春,130022 |
| |
摘 要: | 对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低。针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法。该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集。在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响。
|
关 键 词: | 数据不均衡 网络流量 相对不确定性 召回率 |
本文献已被 CNKI 万方数据 等数据库收录! |
|