首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
特征选择和维数约简在机器学习、模式识别和数据挖掘领域是很常用的方法。它们之间也具有一定的联系。但对它们的融合应用1/1前很少研究,从而融合特征选择和维数约简的思路被提出。该思路融合了主成分分析方法和遗传算法,提出PGS方法。并把它应用于基因microarray数据的预测分类,取得了较好的效果。  相似文献   

2.
流形学习中非线性维数约简方法概述   总被引:4,自引:1,他引:3  
较为详细地回顾了流形学习中非线性维数约简方法,分析了它们各自的优势和不足.与传统的线性维数约简方法相比较,可以发现非线性高维数据的本质维数,有利于进行维数约简和数据分析.最后展望了流形学习中非线性维数方法的未来研究方向,期望进一步拓展流形学习的应用领域.  相似文献   

3.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好.  相似文献   

4.
由于质谱数据的维数较高,处理时运算量也特别大,同时还降低分类精度.研究者提出一些降维方法,产生了较好的效果.一般降维方法分两类:特征提取和特征选择.两类方法各有优劣,本文提出对特征提取的主成分进行特征选择,提出了将几种特征提取方法与特征选择方法结合的框架,来对数据集进行维数约简.在三个质谱数据集上的实验结果证明新提出的框架对于质谱数据有好的效果,加入特征选择后,建模精度得到了提高.  相似文献   

5.
在应用SVM对文本进行分类时,用传统的TFIDF算法对文本特征进行选择会产生高维特征向量问题,这个问题干扰了SVM的效率和准确性,使SVM的性能下降.为了解决SVM文本分类过程中产生的这个问题,提出一种基于本体的特征项约简方法.该方法通过本体找出特征向量中具有同义关系、组成关系和上下位关系的冗余特征项,然后对它们进行合并降低特征向量的维数.试验结果表明,采用本体约简特征向量的方法改进了SVM分类器的性能.  相似文献   

6.
提出一种新的基于多约简SVM的说话人辨识方法.先通过基于熵的特征筛选法,对训练样本进行维数约简,并改善聚类性能.然后用基于核的可能性聚类算法(KPCM)在特征空间选择最具有代表性的样本训练约简SVM,减少系统的存储量和训练量.实验结果表明,提出的方法在不影响识别率的情况下提高了识别速度,减少了SVM的计算量.  相似文献   

7.
《微型机与应用》2015,(21):81-84
在文本分类中,特征空间维数可以达到数万维。使用信息度量的方法,如文档频率、信息增益、互信息等,对特征进行选择后的维数通常还是很大,降低阈值或减小最小特征数可能会降低分类效果。针对这个问题,提出基于粗糙集的二次属性约简。实验表明,该方法在有效降低特征维数的同时保证了分类效果。  相似文献   

8.
对包含大流量数据的高维度网络进行异常检测,必须加入维数约简处理以减轻系统在传输和存储方面的压力。介绍高速网络环境下网络流量异常检测过程以及维数约简方式,阐述流量数据常用特征和维数约简技术研究的最新进展。针对网络流量特征选择和流量特征提取2种特征降维方式,对现有算法进行归纳分类,分别描述算法原理及优缺点。此外,给出维数约简常用的数据集和评价指标,分析网络流量异常检测中维数约简技术研究面临的挑战,并对未来发展方向进行展望。  相似文献   

9.
融合Log-Gabor小波和监督保局映射的人脸识别算法   总被引:3,自引:0,他引:3  
流形学习是一种非监督学习算法,其鉴别能力不如传统的维数约简算法,而且流形学习算法不能有效地消除图像中如高阶相关等冗余信息.针对这2个问题,提出一种融合Log-Gabor小波和监督保局映射的人脸识别算法.首先使用Log-Gabor小波对归一化的人脸图像进行多方向、多分辨率滤波,并提取其对应的Log-Gabor图像特征向量;然后使用监督保局映射算法对Log-Gabor特征向量进行维数约简,得到低维鉴别特征;最后使用最近邻分类器进行分类.该算法综合运用了Log-Gabor特征对人脸图像的优异的表征能力、SLPP的非线性维数约简能力,对光照变化、表情变化等具有良好的鲁棒性.在Yale和PIE人脸库上的仿真实验结果证明了文中算法的有效性.  相似文献   

10.
基于流形学习与SVM的手写字符识别方法   总被引:1,自引:0,他引:1  
本文结合核方法、局部线性嵌入(LLE)和支持向量机等机器学习方法,提出了一种集成手写字符维数约简、特征提取及识别方法.鉴于LLE方法对其近邻个数太过敏感,以及要求流形上的数据分布比较均匀,难以实现手写字符维数约简.本文提出的基于核局部线性嵌入方法(KLLE),能够选择最优的近邻个数、构造分布均匀流形,并克服了手写字符识别中由于书写习惯和风格不同造成字符模式不稳定的问题.使用MINST数据库中的手写数字进行仿真实验并利用PCA、LLE进行维数约简比较,验证了KLLE算法的有效性及优势.  相似文献   

11.
There have been an increasing number of applications where the number of predictors is large, meanwhile data are repeatedly measured at a sequence of time points. In this article we investigate how dimension reduction method can be employed for analyzing such high-dimensional longitudinal data. Predictor dimension can be effectively reduced while full regression means information can be retained during dimension reduction. Simultaneous variable selection along with dimension reduction is studied, and graphical diagnosis and model fitting after dimension reduction are investigated. The method is flexible enough to encompass a variety of commonly used longitudinal models.  相似文献   

12.
基于类别分布的特征选择框架   总被引:6,自引:0,他引:6  
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS.  相似文献   

13.
Variable selection and dimension reduction are two commonly adopted approaches for high-dimensional data analysis, but have traditionally been treated separately. Here we propose an integrated approach, called sparse gradient learning (SGL), for variable selection and dimension reduction via learning the gradients of the prediction function directly from samples. By imposing a sparsity constraint on the gradients, variable selection is achieved by selecting variables corresponding to non-zero partial derivatives, and effective dimensions are extracted based on the eigenvectors of the derived sparse empirical gradient covariance matrix. An error analysis is given for the convergence of the estimated gradients to the true ones in both the Euclidean and the manifold setting. We also develop an efficient forward-backward splitting algorithm to solve the SGL problem, making the framework practically scalable for medium or large datasets. The utility of SGL for variable selection and feature extraction is explicitly given and illustrated on artificial data as well as real-world examples. The main advantages of our method include variable selection for both linear and nonlinear predictions, effective dimension reduction with sparse loadings, and an efficient algorithm for large p, small n problems.  相似文献   

14.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

15.
在故障诊断中,将高维特征空间压缩到低维特征空间可以简化故障分类器设计,提高运算效率。研究了自适应遗传算法(AGA)和粗糙集(RS)理论在特征选择和特征约简中的应用,并针对柴油机燃油喷射系统故障提取了简化特征,建立了神经网络模型。试验结果表明,基于AGA-RS的故障特征参数提取方法可使故障分类器输入参数同时具有有效性和简约性,提高了神经网络的运算效率。  相似文献   

16.
This paper proposes three feature selection algorithms with feature weight scheme and dynamic dimension reduction for the text document clustering problem. Text document clustering is a new trend in text mining; in this process, text documents are separated into several coherent clusters according to carefully selected informative features by using proper evaluation function, which usually depends on term frequency. Informative features in each document are selected using feature selection methods. Genetic algorithm (GA), harmony search (HS) algorithm, and particle swarm optimization (PSO) algorithm are the most successful feature selection methods established using a novel weighting scheme, namely, length feature weight (LFW), which depends on term frequency and appearance of features in other documents. A new dynamic dimension reduction (DDR) method is also provided to reduce the number of features used in clustering and thus improve the performance of the algorithms. Finally, k-mean, which is a popular clustering method, is used to cluster the set of text documents based on the terms (or features) obtained by dynamic reduction. Seven text mining benchmark text datasets of different sizes and complexities are evaluated. Analysis with k-mean shows that particle swarm optimization with length feature weight and dynamic reduction produces the optimal outcomes for almost all datasets tested. This paper provides new alternatives for text mining community to cluster text documents by using cohesive and informative features.  相似文献   

17.
基于粗糙集的表情特征选择   总被引:1,自引:1,他引:0       下载免费PDF全文
为解决取得特征向量维数过高问题,提出了一种改进的粗糙集属性约简算法。运用几何特征点方法得到人脸表情的局部特征向量,引入粗糙集理论,用改进的属性约简算法对提取到的表情特征进行优化选择,去掉冗余特征和对表情分类无用的不相关信息。实验结果显示,该方法不仅实现方便,识别率高,识别所用的时间也大大减少,充分表明了该方法的有效性。  相似文献   

18.
In this paper, we propose a structure‐preserving model reduction method for second‐order systems based on H2 optimal interpolation. In the iterative process of the proposed method, an algorithm is presented for selecting interpolation points in order to control the dimension of the reduced system. Result about error analysis of the interpolation points selection algorithm is obtained and the property of the new model reduction method is also given. Finally, three numerical examples are performed to illustrate the effectiveness of the new method.  相似文献   

19.
文本分类中的特征降维方法研究   总被引:1,自引:0,他引:1  
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号