首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
流分类技术在网络安全监控,QoS,入侵检测等方面起着重要的作用。流分类器处理的数据含有大量的相关与冗余特征,这不仅增加了分类器的计算复杂性,同时也影响了分类器的分类效果。针对高维特征空间,特征选择一方面可以提高分类精度与效率,另一方面可以找出富含信息的特征子集。该文提出一种wrapper型特征选择算法VFSA-C4.5来构建轻量级的流分类器。该算法采用快速模拟退火VFSA搜索策略对特征子集空间进行随机搜索,然后以提供的数据在C4.5上的分类正确率作为特征子集的评价标准,来获取最优特征子集。在流数据集上进行的大量实验结果表明,基于VFSA-C4.5的流分类器在不影响分类性能的情况下能够提高分类速度。  相似文献   

2.
许明英  尉永清  赵静 《计算机应用》2011,31(9):2530-2533
贝叶斯分类器形成初期,训练集不完备,生成的分类器性能不理想且不能动态跟踪用户需求。针对此缺陷,提出一种结合反馈信息的贝叶斯分类增量学习方法。为有效降低特征间的冗余性,提高反馈特征子集的代表能力,用一种基于遗传算法的改进特征选择方法选取反馈集中最优特征子集修正分类器。通过实验分析了算法的性能,结果证明该算法能明显优化分类效果,且整体稳定性较好。  相似文献   

3.
孔莉芳  张虹 《控制与决策》2012,27(7):967-974
针对大量无关或冗余的特征通常会降低模式分类中分类器性能的问题,提出一种基于异步并行微粒群优化的特征子集选择方法(AP-PSO).该方法采用二进制微粒群优化搜索特征子集,利用异步并行方式提高算法的运算效率;为有效协调种群的全局探索和局部开发能力,充分利用混沌运动的遍历性和随机性,提出一种一致混沌变异算子.与已知4种特征子集选择方法进行比较,所得结果验证了该算法的有效性.  相似文献   

4.
针对大规模基因芯片高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于互信息最大化方法(MMI)和与遗传算法的模型无关的基因选择方法来将特征选择转化为全局优化问题,其中的适应度函数定义为类间距离与类内距离之比,适应程度高。为了评价算法的性能,采用3个数据集进行了实验,结果表明MMIGA-Selection取得了较好的效果,在每个数据集上获得了较高的5折交叉验证正确率。MMIGA-Selection主要有两个优点:一是可以有效减少冗余基因;二是模型无关性,选择得出的特征子集可直接用于其他类型的分类器,分类精度较高。  相似文献   

5.
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出了一种基于近似Markov Blanket和动态互信息的特征选择算法。该算法利用互信息作为特征相关性的度量准则,并在未识别的样本上对互信息进行动态估值,利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。通过仿真试验证明了该算法的有效性。以支持向量机为分类器,在公共数据集UCI上进行了试验,并与DMIFS和ReliefF算法进行了对比。试验结果证明,该算法选取的特征子集与原始特征子集相比,以远小于原始特征规模的特征子集获得了高于或接近于原始特征集合的分类结果。  相似文献   

6.
特征选择是模式识别与数据挖掘的关键问题之一,它可以移除数据集中的冗余和不相关特征以提升学习性能。基于最大相关最小冗余准则,提出一种新的基于相关性与冗余性分析的半监督特征选择方法(S2R2),S2R2方法独立于任何分类学习算法。该方法首先对无监督相关度信息度量进行分析与扩充,然后结合信息增益,设计一种半监督特征相关性与冗余性度量,可以有效识别与移除不相关和冗余特征,最后采用增量搜索技术贪婪地构建特征子集,避免搜索指数级大小的解空间,提高算法的运行效率。本文还提出S2R2方法的快速过滤版本,FS2R2,以更好地应对大规模特征选择问题。多个标准数据集上的实验结果表明了所提方法的有效性和优越性。  相似文献   

7.
针对传统机器学习分类算法处理高维个人信用数据时分类准确率较低的问题,提出一种基于皮尔森相关系数(PCC)和互信息法结合梯度提升决策树(MI-GBDT)的最优特征子集的选择方法,并应用在决策树、朴素贝叶斯分类器、支持向量机上。利用皮尔森相关系数去除强相关特征,利用互信息法和GBDT计算剩余特征的综合重要度,结合改进的基于特征排序的搜索策略,分别生成3种分类器模型所需的最优特征子集。实验结果表明,该方法在3种分类模型上筛选出的特征子集对应的分类精度分别提高了4.33%、13.29%和20.27%。  相似文献   

8.
鉴于传统的基因选择方法会选出大量冗余基因从而导致较低的样本预测准确率,提出一种基于聚类和微粒群优化的基因选择算法。首先采用聚类算法将基因分成固定数目的簇;然后,采用极限学习机作为分类器进行簇中的特征基因分类性能评价,得到一个备选基因库;最后,采用基于微粒群优化和极限学习机的缠绕法从备选基因库中选择具有最大分类率、最小数目的基因子集。所选出的基因具有良好的分类性能。在两个公开的微阵列数据集上的实验结果表明,相对于一些经典的方法,新方法能够以较少的基因获得更高的分类性能。  相似文献   

9.
N-gram字符是网络书写纹识别最有效的特征类型之一。针对其特征维数高、冗余特征多且无关特征少等特点,提出一种基于特征空间划分来构造集成学习分类器的网络书写纹识别方法。该方法首先根据一定的划分粒度,将初始特征集划分为等维度、无交又的特征子集,然后基于每一个特征子集训练生成对应的基分类器(多元朴素贝叶斯),最后采用算术与几何平均相结合的融合策略完成集成学习分类器的构造。特征空间的划分(即特征子集的选择)采用遗传算法进行优化。实验在一个真实数据集上开展,其结果表明该方法有效地提高了网络书写纹的识别性能。  相似文献   

10.
软件缺陷预测通过预先识别出被测项目内的潜在缺陷程序模块,有助于合理分配测试资源,并最终提高被测软件产品的质量。但在搜集缺陷预测数据集的时候,由于考虑了大量与代码复杂度或开发过程相关的度量元,造成数据集内存在维数灾难问题。借助基于搜索的软件工程思想,提出一种新颖的基于搜索的包裹式特征选择框架SBFS。该框架在实现时,首先借助SMOTE方法来缓解数据集内存在的类不平衡问题,随后借助基于遗传算法的特征选择方法,基于训练集选出最优特征子集。在实证研究中,以NASA数据集作为评测对象,以基于前向选择策略的包裹式特征选择方法FW、基于后向选择策略的包裹式特征选择BW、不进行特征选择的Origin作为基准方法。最终实证研究结果表明:SBFS方法在90%的情况下,不差于Origin法。在82.3%的情况下,不差于BW法。在69.3%的情况下,不差于FW法。除此之外,我们发现若基于决策树分类器,则应用SMOTE方法后,可以在71%的情况下,提高模型性能。而基于朴素贝叶斯和Logistic回归分类器,则应用SMOTE方法后,仅可以在47%和43%的情况下,提高模型的预测性能。  相似文献   

11.
软件故障预测中若采用大量度量指标建立预测模型,可能因其中含有无关特征使预测模型性能受到不良影响,故障预测中的特征选择步骤选取一定维度的部分故障数据建立预测模型来提高模型性能,以达到压缩特征维度,提高模型预测精度,降低预测模型复杂度,节约计算资源的目的。传统特征排序方法仅评估单个特征对类标的影响,建立的预测模型有效性较低;特征子集选择方法需搜索所有特征子集,耗费计算资源且所选特征维数较高。针对以上问题,提出一种基于拓展贝叶斯信息准则的特征选择方法(EBIC-FS),该方法对数据进行线性回归,并计算出残差平方和较小且数据维数较少的特征模型。在公开数据集M&R及Promise上进行实验,结果表明该方法能有效压缩特征维度,且预测模型性能与5种基线方法相比有较大提升。  相似文献   

12.
软件缺陷预测先前的研究工作主要关注软件缺陷分类问题,即判断一个软件模块是否含有缺陷。如何量化一个软件模块中含有软件缺陷的数量问题还未被很好地研究。针对该问题,提出了一种两阶段的软件模块缺陷数预测特征选择方法FSDNP:特征聚类阶段和特征选择阶段。在特征聚类阶段中,使用基于密度峰聚类的算法将高度相关的特征进行聚类;在特征选择阶段,设计了三种启发式的排序策略从簇中删除冗余的和无关的特征。在PROMISE数据集上,使用平均错误率和平均相对错误率指标,与6个经典的方法进行了比较。实验结果表明,FSDNP能够有效移除冗余的和无关的特征,构建高效的软件缺陷数预测模型。  相似文献   

13.
基于遗传算法和支持向量机的肿瘤分子分类   总被引:1,自引:0,他引:1  
提出了一种基于遗传算法(GA)和支持向量机(SVM)的用于肿瘤分子分类和特征基因选择的新方法。该方法针对基因表达数据样本少维数高的特点,先根据基因的散乱度滤掉大量分类无关基因,而后使用相关性分析去除分类冗余基因,得到一个候选基因子集,用遗传算法搜索候选特征基因空间,发现在支持向量机分类器上具有好的分类性能的且含基因个数较少的特征子集。把这种GA/SVM方法应用到结肠癌和急性白血病基因表达谱,能选出多个取得较高分类精度的较小基因子集,实验结果表明了该方法的有效性。  相似文献   

14.
高维网络数据中的无关属性和冗余属性会导致入侵检测速度慢及效率低下。为解决该问题,提出一种基于快速属性约简的网络入侵特征选择方法。以网络数据的条件属性与类别属性之间的互信息为度量去除无关属性,采用基于粗糙集正区域的属性重要性计算公式作为启发信息,设计一种快速属性约简算法去除网络数据的冗余属性,实现网络入侵特征子集的优化选择。在KDD CUP1999数据集上的仿真实验结果表明,该方法能有效去除网络数据中的无关属性和冗余属性,具有较高的入侵检测率和较低的误报率。  相似文献   

15.
张翠军  陈贝贝  周冲  尹心歌 《计算机应用》2018,38(11):3156-3160
针对在分类问题中,数据之间存在大量的冗余特征,不仅影响分类的准确性,而且会降低分类算法执行速度的问题,提出了一种基于多目标骨架粒子群优化(BPSO)的特征选择算法,以获取在特征子集个数与分类精确度之间折中的最优策略。为了提高多目标骨架粒子群优化算法的效率,首先使用了一个外部存档,用来引导粒子的更新方向;然后通过变异算子,改善粒子的搜索空间;最后,将多目标骨架粒子群算法应用到特征选择问题中,并利用K近邻(KNN)分类器的分类性能和特征子集的个数作为特征子集的评价标准,对UCI数据集以及基因表达数据集的12个数据集进行实验。实验结果表明,所提算法选择的特征子集具有较好的分类性能,最小分类错误率最大可以降低7.4%,并且分类算法的执行时间最多能缩短12 s,能够有效提高算法的分类性能与执行速度。  相似文献   

16.
特征选择通过移除不相关和冗余的特征来提高学习算法的性能。基于进化算法在求解优化问题时表现出的优越性能,提出FSSAC特征选择方法。新的初始化策略和评估函数使得SAC能将特征选择作为离散空间搜索问题来解决,利用特征子集的准确率指导SAC的采样阶段。在实验阶段,FSSAC结合SVM,J48和KNN分类器,通过UCI数据集完成验证,并与FSFOA,HGAFS,PSO等算法进行了比较。实验结果表明,FSSAC可以提高分类器的分类准确率,且具有良好的泛化性能。除此之外,对FSSAC和其他算法在特征空间维度缩减情况方面做了对比。  相似文献   

17.
基于信噪比与邻域粗糙集的特征基因选择方法   总被引:3,自引:3,他引:0  
鉴于传统基因选择方 法会选出大量冗余基因从而导致样本预测准确率较低,提出了一种基于信噪比与邻域粗糙集 的特征基因选择方法(Signal noise ration and the neighborhood rough set, SNRS) 。 首先采用信噪比指标获得分类能力较强的预选特征子集;然后利用邻域粗糙集约简算法 对预选特征子集进行寻优;最后采用不同的分类器对特征基因子集进行分类。通过实验表 明,该方法能够克服传统分类算法精度不高的缺陷,并且能够在较少的特征基因下取得较高 的分类精度,验证了该方法的可行性和有效性。  相似文献   

18.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

19.
周红标      乔俊飞   《智能系统学报》2017,12(5):595-600
针对多元序列预测建模过程中特征选择问题,提出了一种基于数据驱动型高维k-近邻互信息的特征选择方法。该方法首先将数据驱动型k-近邻法扩展用于高维特征变量之间互信息的估计,然后采用前向累加策略给出全部特征最优排序,根据预设无关特征个数剔除无关特征,再利用后向交叉策略找出并剔除冗余特征,最终得到最优强相关特征子集。以Friedman数据、Housing数据和实际污水处理出水总磷预测数据为例,采用多层感知器神经网络预测模型进行仿真实验,验证了所提方法的有效性。  相似文献   

20.
针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的混合式特征选择方法-HFSNFP。首先,利用ReliefF算法计算每个特征与缺陷个数之间的相关性,选出相关性最高的m个特征;然后,基于特征之间的关联性利用谱聚类对这m个特征进行聚类;最后,利用基于包裹式特征选择思想从每个簇中依次挑选最相关的特征形成最终的特征子集。实验结果表明,相比于已有的五种过滤式特征选择方法,HFSNFP方法在提高预测率的同时降低了误报率,且G-measure与RMSE度量值更佳;相比于已有的两种包裹式特征选择方法,HFSNFP方法在保证了缺陷个数预测性能的同时可以显著降低特征选择的时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号