首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对高维小样本的DNA微阵列数据多分类问题,提出一种基于ReliefF和蚁群算法的特征基因选择方法(ReliefF and Ant Colony Optimization, ReFACO)。该方法首先采用ReliefF算法评估特征权重,根据阈值筛选出无关基因;然后引入改进的蚁群算法,在迭代改进的过程中寻找最优基因子集;最后利用经典分类算法对维数约简后的数据分类识别。经实验证明,该方法可以有效地剔除无关和冗余基因,并利用较少特征基因达到较高多分类效果。  相似文献   

2.
Deep Web分类的小样本、高维特征的特点限制了分类算法的选择,影响分类器的设计和准确度,降低了分类器的"泛化"能力,出现分类器"过拟合",所以需要进行特征选择,降低特征的维数,避免.维数灾难".目前,没有Deep.Web特征选择自动算法的相关研究.通过对Deep Web分类的特征选择进行研究,提出了基于类别可分性判据和Tabu搜索的特征选择算法,可以在O(N2)的时间复杂度内得到次优的特征子集,减小了分类器设计的难度,提高了分类器分类准确率.根据特征选择前后的特征集,利用KNN分类算法进行Deep Web分类,结果表明提高了分类器的分类准确率,降低了分类算法的时间复杂度.  相似文献   

3.
以轴承故障诊断为应用背景,基于低维投影能够反映原高维数据某些特征的思想,提出了一种基于投影的特征选择方法。该方法利用遗传算法找到最能反映样本分类特性的投影方向,并利用该方向剔除与投影值无关的特征指标,克服了传统特征选择方法在高维空间中计算复杂的缺点,有效避免了"维数灾难"。仿真结果表明,该方法能够在不降低投影值类别特性的情况下,有效降低样本数据维数,完成特征选择,提高了分类效率及准确率。  相似文献   

4.
为了解决高维数据在分类时导致的维数灾难,降维是数据预处理阶段的主要步骤。基于稀疏学习进行特征选择是目前的研究热点。针对现实中大量非线性可分问题,借助核技巧,将非线性可分的数据样本映射到核空间,以解决特征的非线性相似问题。进一步对核空间的数据样本进行稀疏重构,得到原数据在核空间的一种简洁的稀疏表达方式,然后构建相应的评分机制选择最优子集。受益于稀疏学习的自然判别能力,该算法能够选择出保持原始数据结构特性的"好"特征,从而降低学习模型的计算复杂度并提升分类精度。在标准UCI数据集上的实验结果表明,其性能上与同类算法相比平均可提高约5%。  相似文献   

5.
基于邻域粗糙集的特征选择算法无法评价特征与样本之间的相互关系,为此,通过融合基于大间隔获得样本对特征的评价准则,提出了基于加权正域的特征选择算法。该算法有效地实现了特征对样本的区分能力与样本对特征的贡献程度的综合利用。在UCI数据集和5个高维小样本数据集上的实验结果表明,相比传统的单准则评价的特征选择方法,该方法不仅能有效地提高特征选择的分类性能,而且更加有利于处理高维小样本数据集。  相似文献   

6.
高光谱遥感影像具有高维非线性、数据冗余多、训练样本难以获得等特点。在线性最小噪声分离变换MNF(Minimum Noise Fraction)的基础上,引入核方法,提出核最小噪声分离变换KMNF(Kernel Minimum Noise Fraction)高光谱遥感影像非线性特征提取方法。在KMNF特征提取后的影像上利用多类SVM进行高光谱影像分类,分析数据维数、样本个数对分类结果的影响,并与传统的最小距离分类方法进行对比。发现最小距离分类法存在维数灾难现象,当达到一定的特征维数之后,多类SVM分类方法受维数影响较小,具有一定的抗噪声能力,在一定程度上避免了维数灾难现象;利用多类SVM进行分类时,随着样本数目的减少,合理设置有关参数,高光谱图像的分类能够维持在较高精度;而传统的最小距离分类法当样本数量较小时,效果很差,这说明了SVM小样本分类的优势。  相似文献   

7.
针对影像分类识别中,属性特征过多不但会造成维数灾难,而且会影响分类精度的问题,该文采用基于Relief-F算法的主成分分析(PCA)变换特征提取方法解决特征降维问题。首先采用Relief-F算法进行特征选择,剔除无效特征;然后进行PCA变换减少特征之间的相关性,降低特征维数。定量分析与实验结果表明:Relief-F算法进行特征选择,能有效提高分类精度;进行PCA变换后,进一步降低了特征的维度;Relief-F算法与PCA变换相结合能实现较好的实验效果。  相似文献   

8.
针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和优化的边界条件;设计混合的遗传算法来充分利用高维小样本数据集不同角度的属性数据,混合遗传算法设立主种群和次种群,在每次迭代中利用次种群的结果引导主种群的演化,从而缓解小样本数据带来的过拟合问题。基于医学数据集的对比实验结果表明,该算法有效地增强了遗传算法的稳定性和鲁棒性,并且实现了较好的特征选择效果。  相似文献   

9.
线性鉴别分析中处理小样本问题的方法有两类:①在模式识别之前,通过降低模式样本特征向量的维数达到消除奇异性的目的;②发展算法获得低维鉴别特征。将这两种方法结合起来,解决了高维小样本情况下基于广义Fisher线性鉴别准则的不相关最优鉴别矢量集的求解问题,给出了抽取最优鉴别矢量的有效算法。  相似文献   

10.
殷飞  焦李成 《计算机科学》2014,41(5):283-287
针对高维数据导致的维数灾难问题,提出了一种基于面向分类准则的维数约简方法。所提准则使每个训练样本在特征空间中与同类样本尽可能接近,而与异类样本尽可能疏远。首先对每个训练样本定义同类样本加权平均距离和异类样本加权平均距离。然后基于上述两个概念分别定义总体同类距离和总体异类距离。以最小化总体同类距离和最大化总体异类距离为目的提出了面向分类的准则(Classification Oriented Criterion,COC)。最后,基于面向分类的准则推导出了一种新的维数约简方法。在公共人脸数据库ORL和Yale上的实验表明所提方法性能优于有代表性的维数约简方法。  相似文献   

11.
信息技术的高速发展促进了信息领域内涵的根本性变革,信息特征的表述方法和内涵不断扩充,高维特征大幅涌现;这些高维特征中可能存在许多不相关和冗余特征,造成了维度灾难,这对基于特征空间聚散特性的分类识别算法提出了更高的要求,需要利用特征选择算法,降低特征向量维数并消除数据噪音的干扰;针对高维特征向量引入的维度灾难等问题,围绕目标分类识别的具体应用,基于标准的序列浮动前向特征选择算法,完成交叉验证重复次数优化,提出了改进的特征选择算法;通过仿真实验表明,基于Bayesian分类器开展识别时,改进算法能够在确保分类识别正确率的前提下,有效提升特征选择的计算速度,并维持一个相对更为收敛且稳定的置信区间,具备良好的准确度。  相似文献   

12.
During the last decade, the deluge of multimedia data has impacted a wide range of research areas, including multimedia retrieval, 3D tracking, database management, data mining, machine learning, social media analysis, medical imaging, and so on. Machine learning is largely involved in multimedia applications of building models for classification and regression tasks, etc., and the learning principle consists in designing the models based on the information contained in the multimedia dataset. While many paradigms exist and are widely used in the context of machine learning, most of them suffer from the ‘curse of dimensionality’, which means that some strange phenomena appears when data are represented in a high-dimensional space. Given the high dimensionality and the high complexity of multimedia data, it is important to investigate new machine learning algorithms to facilitate multimedia data analysis. To deal with the impact of high dimensionality, an intuitive way is to reduce the dimensionality. On the other hand, some researchers devoted themselves to designing some effective learning schemes for high-dimensional data. In this survey, we cover feature transformation, feature selection and feature encoding, three approaches fighting the consequences of the curse of dimensionality. Next, we briefly introduce some recent progress of effective learning algorithms. Finally, promising future trends on multimedia learning are envisaged.  相似文献   

13.
针对已有基于线性变换的稀疏保留投影方法在解决实际问题时,会遇到维数灾难和小样本问题.通过引入核方法,提出一种核稀疏保留投影方法.首先采用非线性变换将原始数据映射到高维特征空间,而后在这个高维空间进行稀疏重构,并对得到的系数矩阵进行降维优化,最终得到所需的投影矩阵.将其应用到步态识别中,采用CASIA(B)步态数据库进行实验分析,实验结果表明,本文方法取得了令人满意的识别效果.  相似文献   

14.
Feature subset selection is a substantial problem in the field of data classification tasks. The purpose of feature subset selection is a mechanism to find efficient subset retrieved from original datasets to increase both efficiency and accuracy rate and reduce the costs of data classification. Working on high-dimensional datasets with a very large number of predictive attributes while the number of instances is presented in a low volume needs to be employed techniques to select an optimal feature subset. In this paper, a hybrid method is proposed for efficient subset selection in high-dimensional datasets. The proposed algorithm runs filter-wrapper algorithms in two phases. The symmetrical uncertainty (SU) criterion is exploited to weight features in filter phase for discriminating the classes. In wrapper phase, both FICA (fuzzy imperialist competitive algorithm) and IWSSr (Incremental Wrapper Subset Selection with replacement) in weighted feature space are executed to find relevant attributes. The new scheme is successfully applied on 10 standard high-dimensional datasets, especially within the field of biosciences and medicine, where the number of features compared to the number of samples is large, inducing a severe curse of dimensionality problem. The comparison between the results of our method and other algorithms confirms that our method has the most accuracy rate and it is also able to achieve to the efficient compact subset.  相似文献   

15.
针对处理高维度属性的大数据的属性约减方法进行了研究。发现属性选择和子空间学习是属性约简的两种常见方法,其中属性选择具有很好的解释性,子空间学习的分类效果优于属性选择。而往往这两种方法是各自独立进行应用。为此,提出了综合这两种属性约简方法,设计出新的属性选择方法。即利用子空间学习的两种技术(即线性判别分析(LDA)和局部保持投影(LPP)),考虑数据的全局特性和局部特性,同时设置稀疏正则化因子实现属性选择。基于分类准确率、方差和变异系数等评价指标的实验结果比较,表明该算法相比其它对比算法,能更有效的选取判别属性,并能取得很好的分类效果。  相似文献   

16.
Vanessa  Michel  Jrme 《Neurocomputing》2009,72(16-18):3580
The classification of functional or high-dimensional data requires to select a reduced subset of features among the initial set, both to help fighting the curse of dimensionality and to help interpreting the problem and the model. The mutual information criterion may be used in that context, but it suffers from the difficulty of its estimation through a finite set of samples. Efficient estimators are not designed specifically to be applied in a classification context, and thus suffer from further drawbacks and difficulties. This paper presents an estimator of mutual information that is specifically designed for classification tasks, including multi-class ones. It is combined to a recently published stopping criterion in a traditional forward feature selection procedure. Experiments on both traditional benchmarks and on an industrial functional classification problem show the added value of this estimator.  相似文献   

17.
在面向大规模复杂数据的模式分类和识别问题中,绝大多数的分类器都遇到了维数灾难这一棘手的问题.在进行高维数据分类之前,基于监督流形学习的非线性降维方法可提供一种有效的解决方法.利用多项式逻辑斯蒂回归方法进行分类预测,并结合基于非线性降维的非监督流形学习方法解决图像以及非图像数据的分类问题,因而形成了一种新的分类识别方法.大量的实验测试和比较分析验证了本文所提方法的优越性.  相似文献   

18.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

19.
We propose a novel feature selection filter for supervised learning, which relies on the efficient estimation of the mutual information between a high-dimensional set of features and the classes. We bypass the estimation of the probability density function with the aid of the entropic-graphs approximation of Rényi entropy, and the subsequent approximation of the Shannon entropy. Thus, the complexity does not depend on the number of dimensions but on the number of patterns/samples, and the curse of dimensionality is circumvented. We show that it is then possible to outperform algorithms which individually rank features, as well as a greedy algorithm based on the maximal relevance and minimal redundancy criterion. We successfully test our method both in the contexts of image classification and microarray data classification. For most of the tested data sets, we obtain better classification results than those reported in the literature.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号