首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
提出了一种基于最小分类错误率和Parzen窗的降维方法,利用Parzen窗估计数据的概率密度分布;通过计算各特征维度下的分类错误率,判断该特征维度对目标分类的贡献度;依据贡献度大小进行特征维度选择从而达到降维的目的。  相似文献   

2.
巴氏距离和K-L交换结合的特征选择   总被引:1,自引:0,他引:1  
巴氏距离(Bhattacharyya Distance)特征选择给出了样本最小错误率上界进的特征.但计算量大。为了减少迭代算法计算时间.文本提出巴氏距离和K-L变换结合的特征选择。首先.对整体样本进行K-L变换.去除变化不大的特征.以降低空间雏数。然后.用迭代方法.进行巴氏距离特征选择。本文中用MNIST手写体数字库的计算表明,该方法能够取得好的效果.比单纯使用K-L变换进行特征选择的最小错误率上界要小得多.同时计算时间大大减少。  相似文献   

3.
基于遗传算法的线性判别分析方法   总被引:2,自引:0,他引:2  
由于线性判别分析(Linear discriminant analysis,LDA)算法并不直接以训练误差作为目标函数,所以在Fisher准则不能代表最小训练误差情况下,LDA算法无法找到最优的分类子空间.本文针对这种情况,首先通过分析数据样本分布与LDA投影向量之间的关系,揭示了LDA投影向量与类间散布矩阵和类内散布矩阵特征值之间存在的关联,并以此提出一种基于遗传算法的LDA算法.该算法以子空间上的训练误差最小为目标,通过遗传算法调整LDA算法中类间矩阵特征值的大小,达到搜索最佳特征子空间的效果.通过模拟数据和真实数据的实验,表明这种方法的分类正确率比现有的线性子空间方法有明显提高.  相似文献   

4.
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题.为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型.利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类.实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果.实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能.  相似文献   

5.
巴氏距离和K-L变换结合的特征选择   总被引:1,自引:1,他引:1  
该文提出巴氏距离(BhattacharyyaDistance)和K-L(Karhunen-Loeve)变换结合的特征选择。采用巴氏距离特征选择眼3,5演的迭代算法,可以获得最小错误率上界。当特征维数高时,为了减少巴氏距离特征选择计算时间,对样本先进行K-L变换,将特征降低到中间维数。然后进行巴氏距离特征选择,降低到结果的维数。用基于MNIST手写体数字库的试验表明,该文方法比单纯用巴氏距离特征选择计算时间大大减少,并比主分量方法(即单纯使用K-L变换)特征选择的错误率小得多。  相似文献   

6.
利用巴氏距离(Bhattacharyya Distance)和PCA(Principal Component Analysis)相结合进行人脸识别研究,提出了使用巴氏距离和PCA相合的算法对特征进行提取。当特征向量维数高时,首先对样本K-L(Karhunen-Loeve)变换进行降维,然后采用巴氏距离特征的迭代算法,得到最小错误率上界。基于ORL人脸数据库的实验表明该方法的识别性能优于LDA、HPCA、HLDA,采用文中的算法可以有效地提高识别率,减少巴氏距离特征计算时间,具有较强的实用性。  相似文献   

7.
标签传递算法是一种半监督分类方法,由于该算法存在要求数据分类结果符合流行假设、数据维数较高时计算复杂度高等问题,在文本分类中效果较差。针对这些问题,经过对LDA主题模型和标签传递算法原理及复杂度的分析,将两者结合,提出一种基于LDA主题模型的标签传递算法LPLDA。该算法用LDA主题模型中的主题表示文本数据,一方面使用LDA主题模型表示文本保证分类结果符合流行假设,另一方面有效减少标签传递算法相似度计算时间。经过实验证明,该算法在标记数据少于待测样本时,分类效果优于传统的有监督分类方法。  相似文献   

8.
基于线性判别分析的特征选择   总被引:2,自引:0,他引:2  
提出一种新颖的基于特征抽取的特征选择方法,将特征选择问题建模为在子空间中的搜索问题,采用线形判别分析(LDA)的投影思想,对LDA施加一定的限制将其转换为对子空间的搜索优化问题,从而通过解LDA的优化问题得到特征选择的解,进一步把特征选择问题推导简化为对特征的评分和排序过程.通过在UCI机器学习库和Reuters-21578文本数据集上的实验,验证了该方法以较少的特征获得了比全部特征更好的分类结果.  相似文献   

9.
在基于加速度信号的人体行为识别中,LDA是较常用的特征降维方法之一,然而LDA并不直接以训练误差作为目标函数,无法保证获得训练误差最小的投影空间。针对这一情况,采用基于GA优化的LDA进行特征选择。提取加速度信号特征,利用PCA方法解决“小样本问题”,通过GA调整LDA中类间离散度矩阵的特征值矢量,使获得的投影空间训练误差最小。采用SVM对7种日常行为进行分类。实验结果表明,与单独采用PCA和采用PCA+LDA方法相比,基于GA优化的LDA算法在保证较高识别率的同时能有效降低特征维数并减小分类误差,最终测试样本的识别率可达95.96%。  相似文献   

10.
PCA(principal component analysis)是一种常用的特征提取方法,LDA(linear discriminant analysis)是一种常用的数据分类方法。然而,传统PCA投影数据没有区分数据的类标签,传统LDA投影数据没有消除数据间的相关性,分类效果都不理想。针对该问题进行研究,设计出了一种WPCA-LDA(weighted principal component analysis-linear discriminant analysis)分类方法。该方法首先对样本数据进行预处理,再运用数据中不同类别间的特征关系计算权值,对数据样本加权,之后用PCA进行特征提取,最后采用LDA方法对提取的特征分类。在Matlab仿真实验中,该方法能将六类样品清晰分开。实验结果表明:与传统的PCA、LDA和PCA-LDA分类方法相比,WPCA-LDA方法的数据分类效果更好。  相似文献   

11.
使用集成学习的方法进行入侵检测过程中,特征选择是关键的一个环节,最佳的特征组合,不但能够降低分类的错误率,而且在分类效率上也有很大的提高。对遗传算法进行改进,并用于入侵检测数据集的特征选择上,经实验证明此方法能够得到较好的集成效果。  相似文献   

12.
Linear discriminant analysis (LDA) is a commonly used classification method. It can provide important weight information for constructing a classification model. However, real-world data sets generally have many features, not all of which benefit the classification results. If a feature selection algorithm is not employed, unsatisfactory classification will result, due to the high correlation between features and noise. This study points out that the feature selection has influence on the LDA by showing an example. The methods traditionally used for LDA to determine the beneficial feature subset are not easy or cannot guarantee the best results when problems have larger number of features.The particle swarm optimization (PSO) is a powerful meta-heuristic technique in the artificial intelligence field; therefore, this study proposed a PSO-based approach, called PSOLDA, to specify the beneficial features and to enhance the classification accuracy rate of LDA. To measure the performance of PSOLDA, many public datasets are employed to measure the classification accuracy rate. Comparing the optimal result obtained by the exhaustive enumeration, the PSOLDA approach can obtain the same optimal result. Due to much time required for exhaustive enumeration when problems have larger number of features, exhaustive enumeration cannot be applied. Therefore, many heuristic approaches, such as forward feature selection, backward feature selection, and PCA-based feature selection are used. This study showed that the classification accuracy rates of the PSOLDA were higher than those of these approaches in many public data sets.  相似文献   

13.
针对自动的音乐流派分类这一音乐信息检索领域的热点问题,提出了多模态音乐流派分类的概念。针对传统的基于底层声学特征的音乐流派分类中的特征选择环节,实现了一种全新的特征选择算法——基于特征间相互影响的前向特征选择算法(IBFFS)。开创性地使用LDA(latent Dirichlet allocation)模型处理音乐标签,将标签属于每个流派的概率通过计算转换为对应的音乐属于每个流派的概率。  相似文献   

14.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

15.
冯宗翰  吴小俊 《计算机工程》2011,37(17):136-139
提出一种将迹比准则和基于错分区域的+L-R方法相结合的特征选择算法.该算法使用迹比算法得到优秀特征子集,对分类产生的错分区域进行+L-R选择得到新特征,新特征可以区分之前被错分的数据,从而降低错分率.采用+L-R算法降低数据冗余.实验结果表明,该算法有效改进迹比准则特征选择算法,同时降低错分率.  相似文献   

16.
Under normality and homoscedasticity assumptions, Linear Discriminant Analysis (LDA) is known to be optimal in terms of minimising the Bayes error for binary classification. In the heteroscedastic case, LDA is not guaranteed to minimise this error. Assuming heteroscedasticity, we derive a linear classifier, the Gaussian Linear Discriminant (GLD), that directly minimises the Bayes error for binary classification. In addition, we also propose a local neighbourhood search (LNS) algorithm to obtain a more robust classifier if the data is known to have a non-normal distribution. We evaluate the proposed classifiers on two artificial and ten real-world datasets that cut across a wide range of application areas including handwriting recognition, medical diagnosis and remote sensing, and then compare our algorithm against existing LDA approaches and other linear classifiers. The GLD is shown to outperform the original LDA procedure in terms of the classification accuracy under heteroscedasticity. While it compares favourably with other existing heteroscedastic LDA approaches, the GLD requires as much as 60 times lower training time on some datasets. Our comparison with the support vector machine (SVM) also shows that, the GLD, together with the LNS, requires as much as 150 times lower training time to achieve an equivalent classification accuracy on some of the datasets. Thus, our algorithms can provide a cheap and reliable option for classification in a lot of expert systems.  相似文献   

17.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

18.
张翠军  陈贝贝  周冲  尹心歌 《计算机应用》2018,38(11):3156-3160
针对在分类问题中,数据之间存在大量的冗余特征,不仅影响分类的准确性,而且会降低分类算法执行速度的问题,提出了一种基于多目标骨架粒子群优化(BPSO)的特征选择算法,以获取在特征子集个数与分类精确度之间折中的最优策略。为了提高多目标骨架粒子群优化算法的效率,首先使用了一个外部存档,用来引导粒子的更新方向;然后通过变异算子,改善粒子的搜索空间;最后,将多目标骨架粒子群算法应用到特征选择问题中,并利用K近邻(KNN)分类器的分类性能和特征子集的个数作为特征子集的评价标准,对UCI数据集以及基因表达数据集的12个数据集进行实验。实验结果表明,所提算法选择的特征子集具有较好的分类性能,最小分类错误率最大可以降低7.4%,并且分类算法的执行时间最多能缩短12 s,能够有效提高算法的分类性能与执行速度。  相似文献   

19.
Feature extraction is an important component of a pattern recognition system. It performs two tasks: transforming input parameter vector into a feature vector and/or reducing its dimensionality. A well-defined feature extraction algorithm makes the classification process more effective and efficient. Two popular methods for feature extraction are linear discriminant analysis (LDA) and principal component analysis (PCA). In this paper, the minimum classification error (MCE) training algorithm (which was originally proposed for optimizing classifiers) is investigated for feature extraction. A generalized MCE (GMCE) training algorithm is proposed to mend the shortcomings of the MCE training algorithm. LDA, PCA, and MCE and GMCE algorithms extract features through linear transformation. Support vector machine (SVM) is a recently developed pattern classification algorithm, which uses non-linear kernel functions to achieve non-linear decision boundaries in the parametric space. In this paper, SVM is also investigated and compared to linear feature extraction algorithms.  相似文献   

20.
一种适用于小样本问题的基于边界的特征提取算法   总被引:1,自引:0,他引:1  
黄睿  何明一  杨少军 《计算机学报》2007,30(7):1173-1178
特征提取技术是模式识别领域进行数据降维和强化判别信息的有效方法.线性判别分析是监督特征提取方法的典型代表,获得广泛应用,但受到小样本问题的制约.对此提出一种适用于小样本问题的基于边界的特征提取算法.算法利用高维数据小样本情况下线性可分概率增加以及其低维投影趋于正态分布的特点,定义了新的类别边界,不但考虑了由线性判别分析提出的类内、类间离散度,也兼顾各类别的方差差异性.通过极大化该边界获得最优投影向量,同时避免因类内离散度矩阵奇异导致的小样本问题.进一步将算法推广到多类问题.高光谱数据特征提取与分类实验表明,算法在小样本情况下对于两类和多类问题均具有良好的推广性能,优于多种线性判别分析的改进算法,并且在样本较多时也取得了满意结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号