首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 562 毫秒
1.
刘云  肖雪  黄荣乘 《信息技术》2020,(5):28-31,36
特征选择是机器学习和数据挖掘中处理高维数据的初步步骤,通过消除冗余或不相关的特征来识别数据集中最重要和最相关的特征,从而提高分类精度和降低计算复杂度。文中提出混合蒙特卡罗树搜索特征选择算法(HMCTS),首先,根据蒙特卡罗树搜索方法迭代生成一个初始特征子集,利用ReliefF算法过滤选择前k个特征形成候选特征子集;然后,利用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后,选择高精度的候选特征作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。  相似文献   

2.
基于CHI与遗传算法的特征选择   总被引:1,自引:0,他引:1  
在基于Web文本信息过滤系统中通过特征选择找到的最优特征子集直接影响到分类的速度及精度。针对此问题,提出了综合CHI及遗传算法的特征选择方法。首先针对原始特征集,采用CHI统计法进行初始筛选,去除冗余特征及噪声后,对得到的特征子集再采用遗传算法进行第二次特征选择,从而得出代表问题空间的最优特征子集,实现降维并提高了分类精度。  相似文献   

3.
ReliefF是一种在很多场合经常使用的filter式的特征选择方法.然而该方法的一大缺点是不能辨别冗余特征。基于ReliefF算法提出一种混合的有监督的特征选择算法。该算法首先利用ReliefF算法去除与分类无关的以及权重低于一定阈值的特征,然后采用一种变量相似性准则来去除冗余特征。在实际的数据集KDDCUP'99上进行的实验结果表明该混合特征选择方法较单独使用ReliefF方法在分类精度上有一定的提高。  相似文献   

4.
针对ORB算法特征匹配精度低的缺陷,结合金字塔光流特性,提出一种优化ORB特征匹配的方法。首先,采用区域分块法对待匹配图像进行处理,挑选出最佳匹配子块,缩小无效匹配区域;接着,对子块提取ORB关键字并计算匹配描述子得到粗匹配点对,采用金字塔光流法追踪ORB特征点,求解特征点的运动位移矢量,以此剔除粗匹配部分错误的匹配对;最后,采用随机采样一致算法进一步剔除冗余匹配点,获取更为精准的匹配对。实验结果表明,本文优化的ORB算法可以很好地满足实时性和精度的要求,特征匹配的平均耗时为原ORB算法的87%左右,且平均匹配率达98%以上。  相似文献   

5.
为提高网络故障诊断系统的诊断精度,节约计算资源,针对需要处理的含有大量无关或冗余特征的数据,提出了一种基于杂交BPSO-SVM的网络故障特征选择算法.该算法采用封装器模式,以SVM的分类准确率和特征压缩比作为适应度函数来指导杂BPSO进行特征选择,将选择出的最优特征子集用于故障诊断.运用Kdd’99数据集的实验结果表明,杂交BPSO-SVM提高了诊断精度,降低了特征维数,可进一步提升网络故障诊断效果.  相似文献   

6.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

7.
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.  相似文献   

8.
针对高光谱图像谱段数目较多、近邻谱段相关性过高而导致分类困难的问题,提出了一种自适应差分进化特征选择的高光谱图像分类算法.首先初始化种群向量集,利用自适应差分进化算法搜索特征的自适应性生成特征子集;然后,通过使用ReliefF技术根据特征排序去除重复特征,从而为所有的特征构建一个特征列表;最后,借助于模糊k-近邻分类器计算每个向量的分类精度,利用包裹模型评估特征子集.在印第安纳数据集和KSC数据集上的实验结果验证了算法的有效性及可靠性,实验结果表明,相比其他几种特征选择算法,该算法取得了更高的总分类精度和更好的Kappa系数.  相似文献   

9.
张俐  陈小波 《电子与信息学报》2022,43(10):3028-3034
特征选择是机器学习、自然语言处理和数据挖掘等领域中数据预处理阶段必不可少的步骤.在一些基于信息论的特征选择算法中,存在着选择不同参数就是选择不同特征选择算法的问题.如何确定动态的非先验权重并规避预设先验参数就成为一个急需解决的问题.该文提出动态加权的最大相关性和最大独立性(WMRI)的特征选择算法.首先该算法分别计算新分类信息和保留类别信息的平均值.其次,利用标准差动态调整这两种分类信息的参数权重.最后,WMRI与其他5个特征选择算法在3个分类器上,使用10个不同数据集,进行分类准确率指标(fmi)验证.实验结果表明,WMRI方法能够改善特征子集的质量并提高分类精度.  相似文献   

10.
针对粗糙集模型中特征选择方法存在计算开销大、不能直接处理连续数据,以及海洋捕食者算法(MPA)处理优化问题仍存在收敛速度慢、易陷入局部最优等问题,提出了基于邻域粗糙集(NRS)和海洋捕食者算法的特征选择方法.首先,使用基于Tent混沌映射的反向学习和高斯扰动策略对原算法改进得到IMPA,再构建一种传输机制形成一种二进制算法;然后,基于邻域依赖度和特征子集长度构造适应度函数,使用IMPA不断迭代搜索出最优特征子集,设计一种元启发式特征选择算法.最后,在9个基准测试函数上评估IMPA的优化性能以及在UCI数据集上评估特征选择算法的分类能力.实验结果表明,在9个基准测试函数上IMPA的平均值、标准差明显优于粒子群优化算法(PSO)和樽海鞘算法(SSA);在UCI数据集上,同基于粗糙集的优化特征选择算法、基于邻域粗糙集的优化特征选择算法相比,所提的特征选择方法在KNN分类器下的分类精度平均值分别提高了10.28~14.13个百分点、2.71~12.11个百分点,在CART分类器下的分类精度平均值分别提高了9.41~13.24个百分点、2.90~12.31个百分点.  相似文献   

11.
One of the difficult challenges facing data miners is that algorithm performance degrades if the feature space contains redundant or irrelevant features. Therefore, as a critical preprocess task, dimension reduction is used to build a smaller space containing valuable features. There are 2 different approaches for dimension reduction: feature extraction and feature selection, which itself is divided into wrapper and filter approaches. In high‐dimensional spaces, feature extraction and wrapper approaches are not applicable due to the time complexity. On the other hand, the filter approach suffers from inaccuracy. One main reason for this inaccuracy is that the subset's size is not determined considering specifications of the problem. In this paper, we propose ESS (estimator learning automaton‐based subset selection) as a new method for feature selection in high‐dimensional spaces. The innovation of ESS is that it combines wrapper and filter ideas and uses estimator learning automata to efficiently determine a feature subset that leads to a desirable tradeoff between the accuracy and efficiency of the learning algorithm. To find a qualified subset for a special processing algorithm that functions on an arbitrary dataset, ESS uses an automaton to score each candidate subset upon the scale of the subset and accuracy of the learning algorithm using it. In the end, the subset with the highest score is returned. We have used ESS for feature selection in the framework of spam detection, a text classification task for email as a pervasive communication medium. The results show achievement in reaching the goal stated above.  相似文献   

12.
Li ZHANG  Cong WANG 《通信学报》2018,39(5):111-122
Feature selection has played an important role in machine learning and artificial intelligence in the past decades.Many existing feature selection algorithm have chosen some redundant and irrelevant features,which is leading to overestimation of some features.Moreover,more features will significantly slow down the speed of machine learning and lead to classification over-fitting.Therefore,a new nonlinear feature selection algorithm based on forward search was proposed.The algorithm used the theory of mutual information and mutual information to find the optimal subset associated with multi-task labels and reduced the computational complexity.Compared with the experimental results of nine datasets and four different classifiers in UCI,the proposed algorithm is superior to the feature set selected by the original feature set and other feature selection algorithms.  相似文献   

13.
针对现有的基于特征融合的JPEG隐写分析方法特征冗余度高、通用性较低的问题,提出了一种基于改进的增强特征选择(BFS,boosting feature selection)算法的通用JPEG隐写分析方法。从线性相关度和非线性相关度两方面降低特征冗余,将特征自相关系数和互信息这两种统计性能引入到特征的评价准则中,重新设计了特征权重计算方法,改进了BFS算法的特征评价函数。通过改进的BFS特征选择算法将3组互补性较强且准确率高的特征进行融合降维,得到最优特征子集训练分类器。对3种高隐蔽性隐写算法F5、Outguess和MME3,在不同嵌入率下进行了大量实验。结果表明,本文方法的分析准确率高于现有的检测率较高的JPEG隐写分析方法和典型的融合分析方法,融合后的特征相关性明显下降,并且具有更强的通用性。  相似文献   

14.
吕子敬  韩顺利  张志辉  刘磊 《红外》2016,37(1):40-44
大规模的红外光谱数据集中存在大量无关冗余的特征。针对这一问题,提出了一种动态赋权红外光谱特征选择算法(Dynamic Weight Infrared Spectrum Feature Selection Algorithm, MBDWFS)。 该算法把对称不确定性度量标准与近似Markov Blanket相结合,以删除原始光谱数据集中无关冗余的特征,从而获取数据规模较小且最优的特征子集。通过与 FCBF、ID$_3$ 和ReliefF三种经典特征选择算法的性能仿真对比试验,证明所提出的MBDWFS算法在整体分类性能上优于其他三种算法,用于红外光谱的物质分析领域时效果更好。  相似文献   

15.
针对卷烟近红外光谱高噪和高冗余特点,提出了一种基于随机森林(RF)和主成分分析(PCA)的特征优选方法RF-PCA,建立了5种不同质量级别卷烟的分类模型,并和其他方法进行了比较。该方法能够有效地对高维数据样本进行分类,用于甄别卷烟品质真伪。特征选择可以过滤与分类不相关的特征,而通过PCA方法可以消除冗余特征的不良影响,并可进一步降低特征维数。实验表明:RF-PCA方法能有效地剔除近红外光谱数据中的噪声特征和冗余特征,提高了分类效率。  相似文献   

16.
Battiti's mutual information feature selector (MIFS) and its variant algorithms are used for many classification applications. Since they ignore feature synergy, MIFS and its variants may cause a big bias when features are combined to cooperate together. Besides, MIFS and its variants estimate feature redundancy regardless of the corresponding classification task. In this paper, we propose an automated greedy feature selection algorithm called conditional mutual information‐based feature selection (CMIFS). Based on the link between interaction information and conditional mutual information, CMIFS takes account of both redundancy and synergy interactions of features and identifies discriminative features. In addition, CMIFS combines feature redundancy evaluation with classification tasks. It can decrease the probability of mistaking important features as redundant features in searching process. The experimental results show that CMIFS can achieve higher best‐classification‐accuracy than MIFS and its variants, with the same or less (nearly 50%) number of features.  相似文献   

17.
魏莎莎  陆慧娟  金伟  李超 《电信科学》2013,29(10):38-42
随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后进行并行计算,同时结合互信息最大化方法对特征进行提取,实现了云计算平台上的特征过滤模型。实验结果表明,基于云平台的互信息最大化特征提取方法能够在保证较高分类精度的情况下,快速提取特征,节省大量时间资源,是一种高效的基因特征提取系统。  相似文献   

18.
陈圣  熊钦 《电子设计工程》2012,20(18):142-144,147
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号