首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
提出了一种基于散度差的组合型文本特征抽取方法.首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了基干散度差的准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.实验结果表明,该方法在文本分类上的效率较好.  相似文献   

2.
提出了一种基于特征选择和特征抽取的混合型文本特征降维方法.通过一种改进的优势率方法进行初次特征选择,将文本表示为以类别属性为行向量的矩阵形式;再使用一种改进的最大散度差特征抽取方法进行二次特征抽取.在最大限度减少信息损失的前提下实现了文本特征的二次降维.对中文文本的分类实验结果表明,提出的特征降维方法具有良好的分类效果.  相似文献   

3.
基于CHI与遗传算法的特征选择   总被引:1,自引:0,他引:1  
在基于Web文本信息过滤系统中通过特征选择找到的最优特征子集直接影响到分类的速度及精度。针对此问题,提出了综合CHI及遗传算法的特征选择方法。首先针对原始特征集,采用CHI统计法进行初始筛选,去除冗余特征及噪声后,对得到的特征子集再采用遗传算法进行第二次特征选择,从而得出代表问题空间的最优特征子集,实现降维并提高了分类精度。  相似文献   

4.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

5.
一种基于数据偏斜的改进KNN文本分类   总被引:2,自引:1,他引:1  
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.  相似文献   

6.
基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.  相似文献   

7.
针对传统降维方法不能直接应用于多元时间序列,现有的多元时间序列降维方法难以在保证降维有效性的同时大幅降低数据维度的问题,提出一种基于全局-局部散度的多元时间序列无监督降维方法。首先,提出一种特征序列提取方法,提取多元时间序列协方差矩阵的上三角元素,将其组合为特征序列。然后,以“局部散度最小、全局散度最大”为基本思想,提出一种无监督降维模型,在保持局部近邻关系的同时,尽可能保留全局信息。将特征序列作为输入,最小化所有样本点邻域方差之和,最大化邻域中心点方差。求解模型得到的投影矩阵能够实现多元时间序列的降维。最后,在20组公开数据集上,对所提方法进行了实验验证。结果表明,所提方法能够在保证降维有效性的同时,较大幅度地降低多元时间序列的维度。  相似文献   

8.
张伟东 《无线互联科技》2012,(10):171+173-171,173
本文提出一种基于Gabor的判别保局投影(GDLPP)算法,来进行表情特征的提取和降维。先利用Gabor小波变换来提取表情特征。再对局部保持投影(LPP)算法进行改进,在目标函数中引入散度差来增加样本的类间散度约束,使得在降维的同时提取出更具判别性的特征。  相似文献   

9.
波段选择是重要的高光谱图像降维手段。为了达到降维的目的,提出结合K-L散度和互信息的无监督波段选择算法,并进行了理论分析和实验验证。首先选出信息熵最大的波段作为初始波段,然后将散度与互信息量的比值定义为联合散度互信息(KLMI)准则,选择KLMI值大且信息量也大的波段加入波段子集中,选出信息量大且相似度低的波段集合,最终利用k最近邻分类算法实现了基于最大方差主成分分析算法、聚类算法、互信息算法和本文中方法的真实高光谱数据分类实验。结果表明,本文中的算法总体分类精度和κ系数均达到0.8以上,高于其它算法;大多数地物的分类精度均得到提升,具有较好的分类性能。该算法是一种实用的高光谱图像降维算法。  相似文献   

10.
王晓微 《电子技术》2007,34(11):132-134
由于网络的发展,中文文本的分类技术也有待提高.向量空间模型是中文文本分类中常用的模型,词作为中文文本的特征,其维数很高,如此高的维数对分类并不是都有用的.所以对特征的选择尤为重要,文章通过两种分类器对多种特征选择方法在同一平面内进行比较,将分类器的各种参数设为最优状态,得到了IG的分类效果较好,并且利用了平均查全率对不同的特征选择方法进行纵向与横向的比较,实验证明,SVM整体的分类效果要优于KNN的分类效果.  相似文献   

11.
Text classification has gained booming interest over the past few years. The traditional approaches of text classification commonly extract features from a signal test criterion, resulting in the problem of “over fitting”. This paper takes test criterions such as frequency, dispersion and concentration indices into account and proposes an improved dimension reduction method and feature weighting method, making the selection more representative and the weighting of characteristic features more reasonable. Experimental results show that the new method has high precision and recall rates.  相似文献   

12.
Due to the high dimensionality of hyperspectral image (HSI), dimension reduction or feature extraction is usually needed before the HSI classification. Traditional linear discriminant analysis (LDA) method for feature extraction usually encounters difficulty because the available training samples in HSI classification are limited, which causes the singularity of data scatter matrix. In this paper, we propose a sparse matrix transform-based LDA (SMT-LDA) algorithm for the HSI classification. By using SMT, the total scatter matrix used in LDA can be constrained to have an eigen-decomposition where the eigenvectors can be sparsely parametrized by a limited number of Givens rotations. In this way, the estimated scatter matrix is always positive definite and well conditioned even in the case of limited training samples. The proposed SMT-LDA method is compared with regularized LDA and PCA-LDA methods on two benchmark hyperspectral data sets. Experimental results indicate that the performance of the proposed method is overall superior to these methods, especially for small-sample-size classification.  相似文献   

13.
高光谱图像分类是高光谱数据分析的重要研究内容.相关向量机由于不受梅西定理的限制、不需要设置惩罚因子等优势受到广泛关注.由于高光谱数据具有较高的维数,当训练样本较少时,高光谱数据的分类精度受到严重的影响.通常解决这种现象的办法是对原数据进行特征降维处理,然而多数基于filter模型的特征选择算法无法直接给出最优特征选择个数.为此提出利用蒙特卡罗随机实验可以对特征参量进行统计估计的特性,计算高光谱图像的最优降维特征数,并与相关向量机结合,对降维后的数据进行分类.实验结果表明了使用蒙特卡罗算法求解降维波段数的可靠性.相比较原始末降维数据,降维后的高光谱图像分类精度有较大幅度的提高.  相似文献   

14.
高光谱图像分类是高光谱数据分析的重要研究内容。相关向量机由于不受梅西定理的限制、不需要设置惩罚因子等优势受到广泛关注。由于高光谱数据具有较高的维数, 当训练样本较少时,高光谱数据的分类精度受到严重的影响。通常解决这种现象的办法是对原数据进行特征降维处理,然而多数基于filter模型的特征选择算法无法直接给出最优特征选择个数。为此提出利用蒙特卡罗随机实验可以对特征参量进行统计估计的特性,计算高光谱图像的最优降维特征数,并与相关向量机结合,对降维后的数据进行分类。实验结果表明了使用蒙特卡罗算法求解降维波段数的可靠性。相比较原始未降维数据,降维后的高光谱图像分类精度有较大幅度的提高。  相似文献   

15.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果.  相似文献   

16.
针对传统果蔬识别率较低的问题,文中采用一种基于主成分分析和距离集成kNN相结合的识别方法。该方法从果蔬图像特征描述、特征降维、分类器设计3个角度出发实现果蔬识别。针对果蔬图片光不均匀、存在阴影等问题,采用K-means 聚类与二次分水岭相结合的方法对图片进行分割。针对果蔬识别模型识别率不高的问题,将所提取果蔬图像的颜色和纹理特征组成特征矩阵,采用PCA与集成kNN算法对该矩阵进行归一化及维数约简来得到低维分类特征,以实现对果蔬农产品的分类。试验结果表明,该算法在果蔬种类识别中识别率最高可达92.6%,且对光照变化、视角变化都具有较好的鲁棒性。  相似文献   

17.
刘金莲  王洪春 《现代电子技术》2012,35(14):97-99,102
传统的局部线性流形特征提取算法以方差贡献率为特征提取质量评价准则,不能保证降维后的分类性能。为此,提出了一种基于香农熵的局部保持特征提取算法,采用总体熵描述特征提取对分类的不确定性,并作为特征提取的评价准则。分析与人脸识别实验表明,相对于局部线性流形特征提取算法,提出方法在保持数据局部特性的同时,改善了特征提取的分类性能。  相似文献   

18.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

19.
吴迪  汪超 《光电子.激光》2018,29(10):1115-1119
提取有效的特征对高维数据的模式分类起着关键 作用,针对现有故障特征维数过高的问题,本文提 出了一种基于正则化零空间线性鉴别分析(Exponential Regularized Null Space Linear Discriminant Analysis, ERNSLDA)的特征提取方法。零空间线性判别分析已经在数据降维和特征提取上展现出良好 的性能,在 本文中,首先对类内样本矩阵进行正则化处理,避免小样本问题,其次对判别准则进行指数 化处理。所提 方法集成了NSLDA和RLDA在模式识别上的优势,有效地提高了人脸识别的精度,在ORL和YALE 数据库上的仿真实验证了本文所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号