共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
胡颖 《计算机与数字工程》2013,41(3)
论文提出了一种基于信息增益改进的信息增益文本特征选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明论文选取的特征子集具有更好的分类能力. 相似文献
3.
一种基于聚类的文本特征选择方法 总被引:6,自引:0,他引:6
传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。 相似文献
4.
文本分类的特点是高维的特征空间和高度的特征冗余.针对这两个特点,采用χ\\+2统计量处理高维的特征空间,利用信息新颖度的思想处理高度的特征冗余,根据最大边缘相关的定义,将二者有机结合,提出一种基于最大边缘相关的特征选择方法.该方法可以在特征选择过程中减少大量的冗余特征.最后,在Reuters-21578 Top10和OHSCAL两个文本数据集上进行实验.实验结果表明,基于最大边缘相关的特征选择方法比χ\\+2统计量和信息增益两种特征选择方法更高效,并且能够提高nave Bayes,Rocchio和kNN 3种不同分类器的性能. 相似文献
5.
在文本分类领域中.目前较常用到的特征选择算法都是通过某种评价函数分别计算单个特征对类别的区分能力,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.这导致了特征集往往存在着冗余。针对这一问题,提出一种新的用于文本分类的特征选择算法.它可以帮助选出区分能力强、弱相关的特征。经实验验证.该方法比传统的特征选择算法具有更好的性能。 相似文献
6.
7.
基于互信息的无监督特征选择 总被引:5,自引:0,他引:5
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能. 相似文献
8.
文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验证明,该方法能够获得较好的分类效果,同时有效提高了对具有强分类能力的中低频特征的利用。 相似文献
9.
文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。 相似文献
10.
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。基于向量空间的文本分类方法中,信息增益是一种有效的特征选择方法。本文改进信息增益的特征选择方法:降低负类对分类的贡献;改进特征项在类中的均匀程度对分类的贡献。实验结果表明,经过改进的信息增益的特征选择方法在分类效果上有显著的提高。 相似文献
11.
为降低文本特征空间维度,提高数据挖掘处理数据的效率,提出两阶段文本特征选择算法。结合方差和平均中位数2种方法构建高相关性的特征子集进行初步降维,并将其作为差分进化算法的初始特征种群。利用特征词的累计词频和文档频率设计适应度函数,将多个特征差向量和局部最优特征引入变异操作中,增加特征子集的扰动性,加快差分进化算法的收敛速度,获得最优特征子集。在WebKB和Reuters-21578数据集上进行实验,结果表明,该算法在准确率、召回率和F1值上均优于TDM5、MADAC等算法,能够降低文本特征空间的维度,提高文本聚类效果。 相似文献
12.
13.
14.
15.
16.
运动想象脑电是一种多通道高维信号,特征选择可以降低特征维数,选择更具判别性的特征,从而有效提高脑电解码的性能。现有的特征选择方法主要包括过滤式、包裹式和嵌入式方法,这3类方法各有优缺点。为了综合利用各类方法的优势,提出2种混合特征选择方法。第1种方法,使用最小绝对值收缩和选择算子(LASSO)进行特征选择,得到LASSO模型的权重之后,再设定一系列权重阈值进行二次特征筛选。第2种方法,使用Fisher分数对特征进行评分,然后设定一系列权重阈值进行二次特征筛选。使用Fisher线性判别分析(FLDA)对2种方法选择的特征子集进行分类。在2组脑机接口(BCI)竞赛数据集和1组实验室自采集数据集上进行实验,最高平均分类准确率分别为77.47%、76.11%、71.30%。实验结果表明,所提出的方法其分类性能优于现有的特征选择方法,而且特征选择时间也具有较大优势。 相似文献
17.
18.
基于粒度计算的特征选择方法 总被引:1,自引:0,他引:1
从粒度计算的划分模型出发,重新定义了相容决策表的约简,并给出了一种新的基于粒度计算的属性约简算法.该算法以信息熵作为启发信息,通过逐渐增加属性构成条件属性集相对于决策属性的约简,再通过删除约简中的所有不必要属性,得到最小约简.该算法有效地降低了计算属性约简的时间复杂度,可以用于较大规模数据集的特征选择.在5个公开的基因表达数据集上的实验证明了该算法能找到高区分能力的特征子集. 相似文献
19.