首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Neural Computing and Applications - Feature selection (FS) is considered as one of the core concepts in the areas of machine learning and data mining which immensely impacts the performance of...  相似文献   

2.
《Pattern recognition letters》2001,22(6-7):799-811
Feature selection is used to improve the efficiency of learning algorithms by finding an optimal subset of features. However, most feature selection techniques can handle only certain types of data. Additional limitations of existing methods include intensive computational requirements and inability to identify redundant variables. In this paper, we present a novel, information-theoretic algorithm for feature selection, which finds an optimal set of attributes by removing both irrelevant and redundant features. The algorithm has a polynomial computational complexity and is applicable to datasets of a mixed nature. The method performance is evaluated on several benchmark datasets by using a standard classifier (C4.5).  相似文献   

3.
特征选择技术是机器学习和数据挖掘任务的关键预处理技术。传统贪婪式特征选择方法仅考虑本轮最佳特征,从而导致获取的特征子集仅为局部最优,无法获得最优或者近似最优的特征集合。进化搜索方式则有效地对特征空间进行搜索,然而不同的进化算法在搜索过程中存在自身的局限。本文吸取遗传算法(GA)和粒子群优化算法(PSO)的进化优势,以信息熵度量为评价,通过协同演化的方式获取最终特征子集。并提出适用于特征选择问题特有的比特率交叉算子和信息交换策略。实验结果显示,遗传算法和粒子群协同进化(GA-PSO)在进化搜索特征子集的能力和具体分类学习任务上都优于单独的演化搜索方式。进化搜索提供的组合判断能力优于贪婪式特征选择方法。  相似文献   

4.
Fast orthogonal forward selection algorithm for feature subset selection   总被引:2,自引:0,他引:2  
Feature selection is an important issue in pattern classification. In the presented study, we develop a fast orthogonal forward selection (FOFS) algorithm for feature subset selection. The FOFS algorithm employs an orthogonal transform to decompose correlations among candidate features, but it performs the orthogonal decomposition in an implicit way. Consequently, the fast algorithm demands less computational effort as compared with conventional orthogonal forward selection (OFS).  相似文献   

5.
宋辰  黄海燕 《计算机应用研究》2012,29(11):4162-4164
提出了一种新的文化算法,基于免疫克隆选择原理改进了文化算法的种群空间,同时设计了一种新的历史知识及其影响函数。为了去除工业中故障诊断过程中的冗余变量,实现数据降维,提高故障诊断性能,将该免疫文化算法应用到故障特征选择当中,提出了一种封装式的特征选择方法。该方法利用抗体种群进行全局搜索,通过文化算法的信念空间保留历代最优个体,并对UCI数据集的高维数据进行特征子集选择。将该方法应用到TE过程故障诊断中,结果表明,相比于直接使用高维数据进行故障诊断,该算法有效降低了特征空间的维数,提高了分类精度。  相似文献   

6.
黄琴    钱文彬    王映龙  吴兵龙 《智能系统学报》2019,14(5):929-938
在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有效性和可行性。  相似文献   

7.
Feature selection is an important filtering method for data analysis, pattern classification, data mining, and so on. Feature selection reduces the number of features by removing irrelevant and redundant data. In this paper, we propose a hybrid filter–wrapper feature subset selection algorithm called the maximum Spearman minimum covariance cuckoo search (MSMCCS). First, based on Spearman and covariance, a filter algorithm is proposed called maximum Spearman minimum covariance (MSMC). Second, three parameters are proposed in MSMC to adjust the weights of the correlation and redundancy, improve the relevance of feature subsets, and reduce the redundancy. Third, in the improved cuckoo search algorithm, a weighted combination strategy is used to select candidate feature subsets, a crossover mutation concept is used to adjust the candidate feature subsets, and finally, the filtered features are selected into optimal feature subsets. Therefore, the MSMCCS combines the efficiency of filters with the greater accuracy of wrappers. Experimental results on eight common data sets from the University of California at Irvine Machine Learning Repository showed that the MSMCCS algorithm had better classification accuracy than the seven wrapper methods, the one filter method, and the two hybrid methods. Furthermore, the proposed algorithm achieved preferable performance on the Wilcoxon signed-rank test and the sensitivity–specificity test.  相似文献   

8.
针对现有回归算法没有考虑利用特征与输出的关系,各输出之间的关系,以及样本之间的关系来处理高维数据的多输出回归问题易输出不稳定的模型,提出一种新的低秩特征选择多输出回归方法。该方法采用低秩约束去构建低秩回归模型来获取多输出变量之间的关联结构;同时创新地在该低秩回归模型上使用[L2,p]-范数来进行样本选择,合理地去除噪音和离群点的干扰;并且使用[L2,p]-范数正则化项惩罚回归系数矩阵进行特征选择,有效地处理特征与输出的关系和避免“维灾难”的影响。通过实际数据集的实验结果表明,提出的方法在处理高维数据的多输出回归分析中能获得非常好的效果。  相似文献   

9.
适合于入侵检测的分步特征选择算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对入侵检测数据集维数高,导致检测算法处理速度慢,而其中包含许多对检测效果影响不大的特征的问题,提出了一种分步特征选择算法。它通过对相关特征和冗余特征的定义,以互信息为准则,首先删除不相关特征,然后删除冗余特征。该算法的时间复杂性低,且独立于检测算法,可以通过调整阈值平衡检测精度和特征的数量。以权威数据集KDD-99为实验数据集,对多种检测算法进行了实验。结果表明,该算法能有效地选择特征向量,保证检测精度,提高检测速度。  相似文献   

10.
基于遗传算法和支持向量机的特征选择研究   总被引:3,自引:0,他引:3  
为了让特征子集获得较高的分类准确率,提出了基于遗传算法和支持向量机的特征选择方法.该方法在ReliefF算法提供先验信息的基础上,将SVM参数混编入特征选择基因编码中,然后利用遗传算法寻求最优的特征子集和支持向量机参数组合.实验结果表明,通过该方法选择的特征子集和支持向量机参数组合能以较小的特征子集获得较高的分类准确率.  相似文献   

11.
传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法应用范围受限.针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了4种不同的评价准则,衍生出8种不同的特征选择算法,从而使得...  相似文献   

12.
杨柳  李云 《计算机应用》2021,41(12):3521-3526
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。  相似文献   

13.
数据流分类中的增量特征选择算法   总被引:1,自引:0,他引:1  
李敏  王勇  蔡立军 《计算机应用》2010,30(9):2321-2323
概念流动的出现及数据的高维性增加了数据流特征选择的复杂性。信息增益是最有效的特征选择算法之一,但计算量大。对信息增益做了等价替换,提出一种基于改进信息增益的混合增量特征选择(IFS)算法。该算法首先利用与分类器无关的评价函数选出候选特征集合,然后将分类器作用于候选特征集合,利用分类精度作为评价标准去选择特征子集,在遇到概念漂移时重新选择特征子集。通过在超平面数据集和UCI数据集上的实验,表明基于IFS算法的分类器能够很快地适应概念漂移,并且比基于全部特征的分类算法有更高的精度。  相似文献   

14.
基于类信息的文本聚类中特征选择算法   总被引:2,自引:0,他引:2  
文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,因此提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验验证了算法的可行性和有效性。  相似文献   

15.
16.
提出了一种针对分类属性数据特征选择的新算法。通过给出一种能够直接评价分类属性数据特征选择的评价函数新定义,重新构造能实现分类属性数据信息量、条件互信息、特征之间依赖度定义的计算公式,并在此基础上,提出了一种基于互信息较大相关、较小冗余的特征选择(MRLR)算法。MRLR算法在特征选择时不仅考虑了特征与类标签之间的相关性,而且还考虑了特征之间的冗余性。大量的仿真实验表明,MRLR算法在针对分类属性数据的特征选择时,能获得冗余度小且更具代表性的特征子集,具有较好的高效性和稳定性。  相似文献   

17.

Feature selection (FS) is a critical step in data mining, and machine learning algorithms play a crucial role in algorithms performance. It reduces the processing time and accuracy of the categories. In this paper, three different solutions are proposed to FS. In the first solution, the Harris Hawks Optimization (HHO) algorithm has been multiplied, and in the second solution, the Fruitfly Optimization Algorithm (FOA) has been multiplied, and in the third solution, these two solutions are hydride and are named MOHHOFOA. The results were tested with MOPSO, NSGA-II, BGWOPSOFS and B-MOABC algorithms for FS on 15 standard data sets with mean, best, worst, standard deviation (STD) criteria. The Wilcoxon statistical test was also used with a significance level of 5% and the Bonferroni–Holm method to control the family-wise error rate. The results are shown in the Pareto front charts, indicating that the proposed solutions' performance on the data set is promising.

  相似文献   

18.
Dimensionality reduction has been attracted extensive attention in machine learning. It usually includes two types: feature selection and subspace learning. Previously, many researchers have demonstrated that the dimensionality reduction is meaningful for real applications. Unfortunately, a large mass of these works utilize the feature selection and subspace learning independently. This paper explores a novel supervised feature selection algorithm by considering the subspace learning. Specifically, this paper employs an ? 2,1?norm and an ? 2,p ?norm regularizers, respectively, to conduct sample denoising and feature selection via exploring the correlation structure of data. Then this paper uses two constraints (i.e. hypergraph and low-rank) to consider the local structure and the global structure among the data, respectively. Finally, this paper uses the optimizing framework to iteratively optimize each parameter while fixing the other parameter until the algorithm converges. A lot of experiments show that our new supervised feature selection method can get great results on the eighteen public data sets.  相似文献   

19.
特征选择是从原始数据集中去除无关的特征并选择良好的特征子集,可以避免维数灾难和提高学习算法的性能。为解决已选特征和类别动态变化(DCSF)算法在特征选择过程中只考虑已选特征和类别之间动态变化的信息量,而忽略候选特征和已选特征的交互相关性的问题,提出了一种基于动态相关性的特征选择(DRFS)算法。该算法采用条件互信息度量已选特征和类别的条件相关性,并采用交互信息度量候选特征和已选特征发挥的协同作用,从而选择相关特征并且去除冗余特征以获得优良特征子集。仿真实验表明,与现有算法相比,所提算法能有效地提升特征选择的分类准确率。  相似文献   

20.
张乐园  李佳烨  李鹏清 《计算机应用》2018,38(12):3444-3449
针对高维的数据中往往存在非线性、低秩形式和属性冗余等问题,提出一种基于核函数的属性自表达无监督属性选择算法——低秩约束的非线性属性选择算法(LRNFS)。首先,将每一维的属性映射到高维的核空间上,通过核空间上的线性属性选择去实现低维空间上的非线性属性选择;然后,对自表达形式引入偏差项并对系数矩阵进行低秩与稀疏处理;最后,引入核矩阵的系数向量的稀疏正则化因子来实现属性选择。所提算法中用核矩阵来体现其非线性关系,低秩考虑数据的全局信息进行子空间学习,自表达形式确定属性的重要程度。实验结果表明,相比于基于重新调整的线性平方回归(RLSR)半监督特征选择算法,所提算法进行属性选择之后作分类的准确率提升了2.34%。所提算法解决了数据在低维特征空间上线性不可分的问题,提升了属性选择的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号