首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 71 毫秒
1.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

2.
针对传统的偏最小二乘法只考虑单特征的重要性以及特征之间存在冗余和多重共线性等问题,将特征之间的统计相关性引入到传统的偏最小二乘分析中,构造了一种基于特征相关的偏最小二乘模型。首先利用特征相关度对特征进行评估预选出特征组,然后将其放入偏最小二乘模型中进行训练,评估该特征组是否可取。结合前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。分别采用麻杏石甘汤君药止咳、平喘和UCI数据集进行分析处理,实验结果表明,该特征选择方法能较好寻找较优的特征组。  相似文献   

3.
特征选择是处理高维数据的一项有效技术。针对传统方法的不足,结合[F-score]与互信息,提出了一种最小冗余最大分离的特征选择评价准则,该准则使所选择的特征具有更好的分类和预测能力;采用二进制布谷鸟搜索算法和二次规划两种搜索策略来搜索最优特征子集,并对两种搜索策略的准确性和计算量进行分析比较;最后,利用UCI数据集进行实验测试,实验结果说明了所提理论的有效性。  相似文献   

4.
特征选择是模式识别与数据挖掘的关键问题之一,它可以移除数据集中的冗余和不相关特征以提升学习性能。基于最大相关最小冗余准则,提出一种新的基于相关性与冗余性分析的半监督特征选择方法(S2R2),S2R2方法独立于任何分类学习算法。该方法首先对无监督相关度信息度量进行分析与扩充,然后结合信息增益,设计一种半监督特征相关性与冗余性度量,可以有效识别与移除不相关和冗余特征,最后采用增量搜索技术贪婪地构建特征子集,避免搜索指数级大小的解空间,提高算法的运行效率。本文还提出S2R2方法的快速过滤版本,FS2R2,以更好地应对大规模特征选择问题。多个标准数据集上的实验结果表明了所提方法的有效性和优越性。  相似文献   

5.
6.
基于粒子群的最大相关最小冗余混合式特征选择方法   总被引:2,自引:0,他引:2  
在分析粒子群优化(PSO)算法和简化PSO算法的基础上,提出一种基于PSO的最大相关最小冗余的Filter-Wrapper混合式特征选择方法.Filter模型是基于互信息和特征的相关冗余综合测度,Wrapper模型是基于改进的简化粒子群算法.在PSO搜索过程中,引入相关冗余度量标准来选择特征子集,将Filter融合在Wrapper中,利用Filter的高效率和Wrapper的高精度提高搜索的速度和性能.最后以支持向量机(SVM)为分类器,在公共数据集UCI上进行实验,实验结果表明了所提出算法的可行性和有效性.  相似文献   

7.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。  相似文献   

8.
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。  相似文献   

9.
为提高特征提取方法的文本分类精确度,结合信息增益(IG)和改进的最大相关最小冗余(mRMR),提出一种IG_CDmRMR二阶段文本特征选择方法。通过IG提取与类别相关性较强的特征集合,利用类差分度动态改变mRMR中特征与类别之间的互信息值权重,并筛选最优特征子集,从而得到文本分类结果。实验结果表明,与IG方法、IG_mRMR方法相比,在特征数量相同的情况下,该方法可使准确率提升约2%。  相似文献   

10.
在文本分类领域中.目前较常用到的特征选择算法都是通过某种评价函数分别计算单个特征对类别的区分能力,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.这导致了特征集往往存在着冗余。针对这一问题,提出一种新的用于文本分类的特征选择算法.它可以帮助选出区分能力强、弱相关的特征。经实验验证.该方法比传统的特征选择算法具有更好的性能。  相似文献   

11.
In this paper, a novel hybrid method, which integrates an effective filter maximum relevance minimum redundancy (MRMR) and a fast classifier extreme learning machine (ELM), has been introduced for diagnosing erythemato-squamous (ES) diseases. In the proposed method, MRMR is employed as a feature selection tool for dimensionality reduction in order to further improve the diagnostic accuracy of the ELM classifier. The impact of the type of activation functions, the number of hidden neurons and the size of the feature subsets on the performance of ELM have been investigated in detail. The effectiveness of the proposed method has been rigorously evaluated against the ES disease dataset, a benchmark dataset, from UCI machine learning database in terms of classification accuracy. Experimental results have demonstrated that our method has achieved the best classification accuracy of 98.89% and an average accuracy of 98.55% via 10-fold cross-validation technique. The proposed method might serve as a new candidate of powerful methods for diagnosing ES diseases.  相似文献   

12.
一种基于组策略的过滤式特征选择算法   总被引:1,自引:0,他引:1  
MRMR算法具有快速、高效等优势,在处理高维数据方面较为流行。基于此,提出一种基于组策略的MRMR改进算法(MRMRE),该算法不仅考虑单个特征属性的相关性与冗余性,同时针对特征组间的相互关系进行研究。算法以MRMR算法为框架,以CCA作为度量基准,选择SVMs作为基分类器,使其特征选择效果提升。在UCI机器学习数据库中图像与基因序列数据集上的大量实验表明:与MRMR算法相比,所提出的算法其特征选择结果具有更高的结果稳定性与分类精度。  相似文献   

13.
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信息方法。该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频。实验结果表明该优化的互信息方法性能良好。  相似文献   

14.
SVM-RFE特征选择算法的算法复杂度高,特征选择消耗时间过长,为了缩短特征选择的时间,针对径向基函数—支持向量机分类器提出了依据核空间类间平均距进行特征选择的算法。首先分析了径向基函数核参数与数据集核空间类间平均距之间的关系,然后提出了依据单个特征对数据集的核空间类间平均距的贡献大小进行特征重要性排序的算法,最后用该算法和SVM-RFE算法分别对8个UCI数据集进行了特征选择实验。实验结果证明了该算法的正确性、有效性,而且特征选择的时间与SVM-RFE算法相比大大减小。  相似文献   

15.
文本分类中一种新的特征选择方法   总被引:11,自引:0,他引:11  
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法。在分析了常用的一些特征选择的评价函数的基础上,提出了一个新的评价函数,即互信息比值。实验证明这一方法简单可行,有助于提高所选特征子集的有效性。  相似文献   

16.
作文特征选取是研究汉语作为第二语言的水平测试自动作文评分的关键问题之一,以中国汉语水平考试作文为研究对象,从字、词、语法、成段表达、庄雅度等多个层面上,选取107个作文特征,经相关度计算得到19个与作文分数较为相关的作文特征。基于选取的作文特征,采用多元线性回归方法进行回归实验和稳定性交叉实验。实验表明,作文长度、词汇使用和成段表达方面的作文特征对作文得分具有较好的解释能力,多元线性回归方法应用于中国汉语水平考试自动作文评分具有较好的稳定性。  相似文献   

17.
面向表情识别的AVR和增强LBP特征选择方法   总被引:2,自引:1,他引:1       下载免费PDF全文
由于对局部纹理特征具有很强的描述能力,LBP(Local Binary Patterns)已经被广泛应用于模式识别、计算机视觉等相关领域,但传统的LBP在表情识别中的正确率并不高,提出了一种结合小波分解的改进LBP特征提取方法,首先使用Adaboost人脸检测算法和2D模型提取人脸图像并归一化,并使用小波分解的方法增强LBP特征,然后通过AVR(Augmented Variance Ratio)特征选取方法降维,最后使用SVM进行分类。JAFFE库上的实验证明了该方法的有效性。  相似文献   

18.
特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有较强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每一个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在 UCI 数据集上的实验结果表明,FSFC 方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。  相似文献   

19.
针对量子遗传偏最小二乘法在特征选择过程中,存在初始化种群粗糙和适应度函数复杂等问题,提出了一种新的特征选择方法--改进的量子遗传偏最小二乘法(Improved Quantum Genetic Algorithm Partial Least Square,IQGAPLS)算法。该算法根据求解问题的实际情况,赋予种群初始值。同时,设计了一种新的适应度函数,以减少计算量,并基于此适应度函数,提出了一种新的旋转角度更新公式,解决了其方向和大小确定困难的问题。将该算法应用于轴向柱塞泵故障信号的特征选择中。实验结果表明,IQGAPLS算法具有较少的计算量和较短的执行时间,选择出的特征包含更多的工作状态信息,从而提高了分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号