首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
熊忠阳  蒋健  张玉芳 《计算机应用》2009,29(7):1755-1757
对高维的特征集进行降维是文本分类过程中的一个重要环节。本文在研究了现有的特征降维技术的基础之上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考察CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。  相似文献   

2.
文本分类中的特征降维方法研究   总被引:1,自引:0,他引:1  
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。  相似文献   

3.
由于质谱数据的维数较高,处理时运算量也特别大,同时还降低分类精度.研究者提出一些降维方法,产生了较好的效果.一般降维方法分两类:特征提取和特征选择.两类方法各有优劣,本文提出对特征提取的主成分进行特征选择,提出了将几种特征提取方法与特征选择方法结合的框架,来对数据集进行维数约简.在三个质谱数据集上的实验结果证明新提出的框架对于质谱数据有好的效果,加入特征选择后,建模精度得到了提高.  相似文献   

4.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。  相似文献   

5.
针对以往仅用人脸特征或头发特征来进行性别分类的片面性,提出了将两类特征相融合的性别分类方法.用对光照、尺度变化具有很强鲁棒性的Gabor小波变换提取人脸内部特征并用PCA方法降维.利用最小代价原理,将动态搜索技术用于图像空间取得头发区域,定义了头发长度、头发表面积两种外部特征,并提出了相应的特征提取方法.采用模糊神经网络对三种特征进行非线性融合.在 Essex 人脸库中进行了性别分类实验,取得了97.1%的准确率.  相似文献   

6.
目前多数图像分类的方法是采用监督学习或者半监督学习对图像进行降维,然而监督学习与半监督学习需要图像携带标签信息。针对无标签图像的降维及分类问题,提出采用混阶栈式稀疏自编码器对图像进行无监督降维来实现图像的分类学习。首先,构建一个具有三个隐藏层的串行栈式自编码器网络,对栈式自编码器的每一个隐藏层单独训练,将前一个隐藏层的输出作为后一个隐藏层的输入,对图像数据进行特征提取并实现对数据的降维。其次,将训练好的栈式自编码器的第一个隐藏层和第二个隐藏层的特征进行拼接融合,形成一个包含混阶特征的矩阵。最后,使用支持向量机对降维后的图像特征进行分类,并进行精度评价。在公开的四个图像数据集上将所提方法与七个对比算法进行对比实验,实验结果表明,所提方法能够对无标签图像进行特征提取,实现图像分类学习,减少分类时间,提高图像的分类精度。  相似文献   

7.
文本分类中特征向量空间是高维和稀疏的,降维处理是分类的关键步骤。针对传统特征提取方法的不足,提出采用基于迭代的CCIPCA和ICA特征提取方法处理大规模文本分类问题,实验结果表明降维提高了分类效果。在CCIPCA、ICA及ICA与IG组合降维的方法中,基于ICA降维的分类效果是最好的。  相似文献   

8.
统计模式识别中的维数削减与低损降维   总被引:31,自引:0,他引:31  
较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器——贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选择方法——低损降维.在标准数据集Reuters-21578上进行的仿真实验结果表明,与互信息、χ^2统计量以及文档频率这三种主流文本特征选择方法相比,低损降维的降维效果与互信息、χ^2统计量相当,而优于文档频率.  相似文献   

9.
文本分类中的高维数据和噪声一直是影响文本分类准确率的主要因素,特征选择和特征提取是降维和去噪的主要手段.本文提出根据词的类间概率分布方差和文档分布方差改进TF-IDF的特征选择方法(VAR-TF-IDF),调整Word2vec中的CBOW+HS词向量训练框架,用特征词词向量的叠加作为文本的特征向量,有效地提高了文本分类的准确率和召回率.实验算例证明了所提方案的有效性.  相似文献   

10.
文本分类中采用向量空间模型来表达文本特征,维数巨大,关键是对高维的特征集进行降维处理,而一般的分解算法无法处理大规模的高维问题。采用CCIPCA与ICA相结合的特征提取方法可以有效地实现文本特征降维。实验结果表明降维提高了分类器的效率和效果。  相似文献   

11.
袁轶  王新房 《计算机工程》2012,38(12):155-157
中文文本分类中传统特征选择算法在低维情况下分类效果不佳。为此,提出一种结合方差思想的评估函数,选出具有较强类别信息的词条,在保证整体分类性能不下降的同时,提高稀有类别的分类精度。采用中心向量分类器,在TanCorpV1.0语料上进行实验,结果表明,该方法在低维空间优势明显,与常用的文档频率、信息增益等9种特征选择算法相比,宏平均值均有较大提高。  相似文献   

12.
Genetic algorithms (GAs) have been used as conventional methods for classifiers to adaptively evolve solutions for classification problems. Feature selection plays an important role in finding relevant features in classification. In this paper, feature selection is explored with modular GA-based classification. A new feature selection technique, relative importance factor (RIF), is proposed to find less relevant features in the input domain of each class module. By removing these features, it is aimed to reduce the classification error and dimensionality of classification problems. Benchmark classification data sets are used to evaluate the proposed approach. The experiment results show that RIF can be used to find less relevant features and help achieve lower classification error with the feature space dimension reduced.  相似文献   

13.
满意特征选择及其应用   总被引:2,自引:0,他引:2  
实际应用中的特征选择是一个满意优化问题.针对已有特征选择方法较少考虑特征获取代价和特征集维数的自动确定问题,提出一种满意特征选择方法(SFSM),将样本分类性能、特征集维数和特征提取复杂性等多种因素综合考虑.给出特征满意度和特征集满意度定义,设计出满意度函数,导出满意特征集评价准则,详细描述了特征选择算法.雷达辐射源信号特征选择与识别的实验结果显示,SFSM在计算效率和选出特征的质量方面明显优于顺序前进法、新特征选择法和多目标遗传算法.证实了SFSM的有效性和实用性.  相似文献   

14.
基于相关性和冗余度的联合特征选择方法   总被引:1,自引:1,他引:0  
比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。  相似文献   

15.
针对基于旁路分析的硬件木马检测中存在的旁路信号冗余以及高维问题,探究特征选择方法在去除冗余、降低旁路信号维数方面的可行性,提出了一种以类内类间距离作为可分性判据的特征选择方法对旁路信号进行预先处理。首先分析了IC芯片旁路信号的特征选择问题,然后阐述了基于类内类间距离的可分性判据以及特征选择搜索算法,最后在FPGA密码芯片中植入硬件木马,并基于K-L方法进行检测实验,通过对旁路信号进行特征选择前后的木马检测效果对比发现,该特征选择方法能有助于分辨出无木马的“金片”与含木马芯片之间旁路信号的统计特征差异,更好地实现硬件木马的检测。  相似文献   

16.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

17.
In this paper, we propose a novel method for fast face recognition called L 1/2-regularized sparse representation using hierarchical feature selection. By employing hierarchical feature selection, we can compress the scale and dimension of global dictionary, which directly contributes to the decrease of computational cost in sparse representation that our approach is strongly rooted in. It consists of Gabor wavelets and extreme learning machine auto-encoder (ELM-AE) hierarchically. For Gabor wavelets’ part, local features can be extracted at multiple scales and orientations to form Gabor-feature-based image, which in turn improves the recognition rate. Besides, in the presence of occluded face image, the scale of Gabor-feature-based global dictionary can be compressed accordingly because redundancies exist in Gabor-feature-based occlusion dictionary. For ELM-AE part, the dimension of Gabor-feature-based global dictionary can be compressed because high-dimensional face images can be rapidly represented by low-dimensional feature. By introducing L 1/2 regularization, our approach can produce sparser and more robust representation compared to L 1-regularized sparse representation-based classification (SRC), which also contributes to the decrease of the computational cost in sparse representation. In comparison with related work such as SRC and Gabor-feature-based SRC, experimental results on a variety of face databases demonstrate the great advantage of our method for computational cost. Moreover, we also achieve approximate or even better recognition rate.  相似文献   

18.
为了有效消除声发射信号中的噪声,将广义S变换滤波方法应用于声发射信号去噪,分别采用广义S变换中的充零法、基于带通滤波器设计滤波算子法以及时频滤波法进行滤波比较,针对信号的不同时频特性设计了相应的时频滤波算子。结果表明,基于S变换的三种时频滤波法对声发射信号的去噪均有较好的效果,克服了传统滤波方法滤波因子不能随时间、频率变化而变化的缺陷。其中时频滤波法在高信噪比和低信噪比情况下都能更好地去除噪声,可以满足信号处理的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号