首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
在基于网络流量分析,被动式的网络设备识别研究中,网络流量数据中往往存在许多高维数据,其中的部分特征对设备识别贡献不大,甚至会严重影响分类结果和分类性能.所以针对这个问题本文提出了一种将Filter和Wrapper方式相结合,基于对称不确定性(SU)和近似马尔可夫毯(AMB)的网络流量特征选择算法FSSA,本文提出的方法...  相似文献   

2.
基因表达谱中信息基因选择是有效建立肿瘤分类模型的关键问题。肿瘤基因表达谱具有高维小样本、噪声大且存在大量无关和冗余基因等特点。为了获得基因数量尽可能少而分类能力尽可能强的一组信息基因,提出一种基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择SUNRS方法。首先利用对称不确定性指标评估信息基因的重要度,以剔除大量无关和冗余基因,获取信息基因的候选子集;然后利用邻域粗糙集约简算法对信息基因候选子集进行寻优,获得信息基因的目标子集。实验结果表明,SUNRS方法能够用较少的信息基因获得更高的分类精度,从而既能改善算法的泛化性能,又能提高时间效率。  相似文献   

3.
劳雪松 《信息与电脑》2023,(12):197-200
传统方法对通信网络流量异常数据挖掘的精准度和效率较低,安全性不高。基于此,提出基于支持向量机通信网络异常流量数据挖掘方法并对该方法进行设计。首先,基于支持向量机对通信网络流量进行特征选择,利用支持向量机在通信网络流量异常挖掘中,选取一对一的构造方法进行类别分类。其次,通过统计频率法选择通信网络流量特征子集并列出大体流程图。再次,对通信网络流量异常特征聚类分析,先计算通信网络流量特征数据记录的距离,再建立通信网络流量特征聚类流程。最后,识别和挖掘通信网络流量异常数据,设计出通信网络流量异常判别模型,通过基于二分法的通信网络流量数据特征分析和基于支持向量机的判别后完成了通信网络流量异常的数据挖掘。将设计方法与传统方法和基于多尺度数据挖掘方法进行对比,得出该方法更具有优势。  相似文献   

4.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

5.
深入研究大间隔从样本间相似性、信息熵从特征间相关性进行特征选择的特点,提出一种有效地融合这两类方法的特征选择算法。采用Relief算法得到一个有效的特征排序,进而将其划分为若干区段。设置各区段的采样率,以对称不确定性作为启发因子获得每个局部随机子空间的特征子集。将获得的所有特征子集作为最终的特征选择结果。实验结果表明该方法优于一些常用的特征选择算法。  相似文献   

6.
预售期到达的策略消费者与制造商之间产品质量信息不对称,制造商可以通过不同的预售策略和预售价格设置,影响消费者对产品质量的判断和购买时机的选择.基于信号传递博弈理论,构建产品质量信息对称和不对称时的博弈模型,给出质量信息不对称时制造商实现分离均衡和混同均衡的边界条件.结果表明:制造商产能较大时,期权预售本身可以作为高产品质量制造商的信号传递工具;消费者判断产品质量为高质量的先验概率足够大时,高产品质量制造商倾向于实现混同均衡隐藏质量信息,反之倾向于实现分离均衡,通过较高的行权价格传递质量信息.最后进一步探讨预售期时长对消费者等待成本的影响,结果表明等待成本相对较低时上述结论依然成立.  相似文献   

7.
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。  相似文献   

8.
针对网络流量特征属性的优化选择问题,提出了一种结合粗糙集和禁忌搜索的网络流量特征选择方法(RS-TS).该方法通过粗糙集算法对网络流量特征属性进行约简,将所得到的特征子集作为禁忌搜索的初始解,并利用禁忌搜索得到最优特征子集.实验验证RS-TS方法优于基于GA的特征选择方法和基于IG的特征选择方法,能够有效地去除网络流量的冗余特征属性,提高网络流量分类精度.  相似文献   

9.
王林  郭娜娜 《计算机应用》2017,37(4):1032-1037
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。  相似文献   

10.
王村松  陆宁云  程月华  姜斌 《控制与决策》2020,35(11):2687-2695
缺少先验知识和完备信息的设备健康评估一直是预测与健康管理(PHM)领域的难点问题.针对设备运行状态观测数据的无标签、不均衡、初值不确定性问题,提出一种多变量深度森林的设备健康评估方法.首先,提出一种基于相关性指标和趋势性指标的特征选择方法以去除冗余特征;然后,利用三维数据标准化和量子模糊聚类方法,动态设定设备健康状态并且解决数据初值的不确定问题;最后,采用一种多变量深度森林分类器实现设备健康状态的离线训练与在线评估.案例分析结果验证了所提出的健康评估方法的有效性和可行性.  相似文献   

11.
Most research of class imbalance is focused on two class problem to date. A multi-class imbalance is so complicated that one has little knowledge and experience in Internet traffic classification. In this paper we study the challenges posed by Internet traffic classification using machine learning with multi-class unbalanced data and the ability of some adjusting methods, including resampling (random under-sampling, random over-sampling) and cost-sensitive learning. Then we empirically compare the effectiveness of these methods for Internet traffic classification and determine which produces better overall classifier and under what circumstances. Main works are as below. (1) Cost-sensitive learning is deduced with MetaCost that incorporates the misclassification costs into the learning algorithm for improving multi-class imbalance based on flow ratio. (2) A new resampling model is presented including under-sampling and over-sampling to make the multi-class training data more balanced. (3) The solution is presented to compare among three methods or to compare three methods with original case. Experiment results are shown on sixteen datasets that flow g-mean and byte g-mean are statistically increased by 8.6 % and 3.7 %; 4.4 % and 2.8 %; 11.1 % and 8.2 % when three methods are compared with original case. Cost-sensitive learning is as the first choice when the sample size is enough, but resampling is more practical in the rest.  相似文献   

12.
黄晓娟  张莉 《计算机应用》2015,35(10):2798-2802
为处理癌症多分类问题,已经提出了多类支持向量机递归特征消除(MSVM-RFE)方法,但该方法考虑的是所有子分类器的权重融合,忽略了各子分类器自身挑选特征的能力。为提高多分类问题的识别率,提出了一种改进的多类支持向量机递归特征消除(MMSVM-RFE)方法。所提方法利用一对多策略把多类问题化解为多个两类问题,每个两类问题均采用支持向量机递归特征消除来逐渐剔除掉冗余特征,得到一个特征子集;然后将得到的多个特征子集合并得到最终的特征子集;最后用SVM分类器对获得的特征子集进行建模。在3个基因数据集上的实验结果表明,改进的算法整体识别率提高了大约2%,单个类别的精度有大幅度提升甚至100%。与随机森林、k近邻分类器以及主成分分析(PCA)降维方法的比较均验证了所提算法的优势。  相似文献   

13.
谢娟英  吴肇中 《软件学报》2022,33(4):1338-1353
针对基于信息增益与皮尔森相关系数的特征选择算法FSIP(feature selection based on information gain and Pearson correlation coefficient)存在的特征子集选取需要人工参与的问题,提出基于可辨识矩阵的完全自适应2D特征选择算法DFSIP(disc...  相似文献   

14.
With the advent of technology in various scientific fields, high dimensional data are becoming abundant. A general approach to tackle the resulting challenges is to reduce data dimensionality through feature selection. Traditional feature selection approaches concentrate on selecting relevant features and ignoring irrelevant or redundant ones. However, most of these approaches neglect feature interactions. On the other hand, some datasets have imbalanced classes, which may result in biases towards the majority class. The main goal of this paper is to propose a novel feature selection method based on the interaction information (II) to provide higher level interaction analysis and improve the search procedure in the feature space. In this regard, an evolutionary feature subset selection algorithm based on interaction information is proposed, which consists of three stages. At the first stage, candidate features and candidate feature pairs are identified using traditional feature weighting approaches such as symmetric uncertainty (SU) and bivariate interaction information. In the second phase, candidate feature subsets are formed and evaluated using multivariate interaction information. Finally, the best candidate feature subsets are selected using dominant/dominated relationships. The proposed algorithm is compared with some other feature selection algorithms including mRMR, WJMI, IWFS, IGFS, DCSF, IWFS, K_OFSD, WFLNS, Information Gain and ReliefF in terms of the number of selected features, classification accuracy, F-measure and algorithm stability using three different classifiers, namely KNN, NB, and CART. The results justify the improvement of classification accuracy and the robustness of the proposed method in comparison with the other approaches.  相似文献   

15.
目前对等网络(Peer-to-Peer,P2P)流量的识别是网络管理研究的热门话题。基于支持向量机(Support Vector Machine , SVM)的P2P流量识别方法是常用的P2P流量识别方法之一。然而SVM的性能主要受参数和其使用特征的影响,而传统的方法则是将SVM的参数优化和特征选择问题分开处理,因此这样很难获得整体性能最优的SVM分类器。本论文提出了一种基于最优人工蜂群算法和支持向量机相结合的P2P流量识别方法,利用人工蜂群算法,将SVM的参数和特征选择问题视为最优化问题同步处理,可以获得整体性能最优的参数和特征子集。在真实的P2P数据上的实验结果表明提出的方法具有很好的自适应性和分类精度,能够同时获取特征子集和SVM参数的最优解,提高SVM分类器的整体性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号