首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
特征选择是模式识别领域的重要环节。本文提出了一种改进的类别依赖型特征选择技术,通过事先选定参数m,自动选择出在文中准则下各个类各自最能区别于其他类的kx维特征。将各类所选择特征的并集作为BP神经网络的输入结点,进而用待识别样本进行分类识别。实验结果说明,该类特征选择方法能够选择出对每一类而言最能区分于其他类的特征。与选择所有特征相比,用该法进行特征选择以后的BP神经网络分类识别有着较高的正确识别率。此外,本文还利用相关分析方法在预处理过程中剔除了线性相关的冗余特征。  相似文献   

2.
传统类别区分词特征选择算法以类间分散度和类内重要度作为度量指标,忽略了2个指标对特征评分函数的贡献权重往往不同这一事实,从而在一定程度上影响了特征选择效果。在类别区分词特征选择算法基础上,引入平衡因子,通过调节平衡因子来调整2个指标对特征评价函数的贡献权重,完成更加高效的特征选择,进而达到更好的文本分类效果。使用朴素贝叶斯算法进行文本分类,相比主流特征选择算法,改进算法在分类准确率、查准率、查全率和F1指标上都取得了可观的性能提升。    相似文献   

3.
特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有较强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每一个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在 UCI 数据集上的实验结果表明,FSFC 方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。  相似文献   

4.
基于区分类别能力的高性能特征选择方法   总被引:15,自引:0,他引:15  
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准.  相似文献   

5.
基于类别特征域的文本分类特征选择方法   总被引:11,自引:2,他引:11  
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1 ]的方法去除原始特征空间中的噪音 ,从中抽取出候选特征。这里“, 组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。  相似文献   

6.
特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验证了该方法的有效性。  相似文献   

7.
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量.通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型.随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果.  相似文献   

8.
特征选择在机器学习和数据挖掘中起到了至关重要的作用.Relief作为一种高效的过滤式特征选择算法,能处理多种类型的数据,且对噪声的容忍力较强,因此被广泛应用.然而,经典的Relief算法对离散特征的评价较为简单,在实际进行特征选择时并未充分挖掘特征与类标签之间的潜在关系,具有很大的改进空间.针对经典的Relief算法对...  相似文献   

9.
文本分类中基于类别概念的特征选择方法   总被引:1,自引:0,他引:1  
传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。  相似文献   

10.
一种基于类别特征矩阵的决策树算法   总被引:1,自引:1,他引:1       下载免费PDF全文
提出了一种基于类别特征矩阵的决策树算法。该算法以决策表的核属性为起点,充分考虑了可辨识矩阵的特性和单个属性的重要性,利用类别特征矩阵对决策表实现最简化决策表的确定和决策规则的挖掘,最后实现最简规则的决策树生成。通过应用实例比较分析,证明该算法能生成最小化决策树,并且决策树生成规则切合实际。  相似文献   

11.
陈建华  王治和  蒋芸 《计算机工程》2012,38(9):186-188,192
提出一种基于类别区分度和关联性分析的综合特征选择算法。利用类别区分度提取具有较强类别区分能力的特征词,降低特征空间的稀疏性,通过特征的关联性分析衡量特征与类别的相关性及特征之间的冗余度,选出具有类别代表性且相互之间不存在冗余的特征词。实验结果表明,该算法能有效提高分类器性能。  相似文献   

12.
基于独立性理论的文本分类特征选择方法   总被引:1,自引:0,他引:1       下载免费PDF全文
特征与各个文档类在文本集中的独立程度体现了特征的代表性,文本分类的特征选择过程是选择能够提高分类性能的高代表性特征的过程。基于该原理提出DHChi2和EIBA 2种新的文本分类特征选择方法,对这2种方法进行合理的组合。实验结果表明,独立性理论应用于文本分类特征选择有利于提高分类性能。  相似文献   

13.
基于类别分布的特征选择框架   总被引:6,自引:0,他引:6  
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS.  相似文献   

14.
特征选择方法可以从成千上万个特征中选择合适的少量特征,使模型更加有效、高效。本文考虑到真实场景下高维数据集中特征之间互相关联以及使用复杂网络结构描述特征空间的全局性与合理性,提出无监督场景下的基于复杂网络节点度中心性的特征选择方法。根据特征间的相关性大小,设定阈值选择保留符合要求的关联;再利用保留的关联生成以特征为节点的无向无权重网络结构;最后以衡量节点度中心性的方法筛选此网络中影响力最大的节点集,亦即最优特征子集。本文方法为处理特征重要性及特征冗余增加了灵活性。采用对比实验,将本文方法与常用特征选择或特征提取方法在多个高维数据集上进行性能比较。实验分析结果表明此方法的有效性以及普适性。  相似文献   

15.
健康监测通常使用大量传感器获取海量的感知数据,由于海量多维数据中存在大量的冗余或干扰,会对监测决策产生负面影响,为此需要对健康监测数据进行特征选择,旨在从数据中剔除多余的和不相关的特征。在现有研究的基础上,提出了特征选择融合方法,该方法通过ReliefF算法进行特征权重计算,并通过LASSO回归模型的计算结果确定特征权重阈值,进行特征初选,降低特征空间的稀疏性,然后利用灰色关联度的属性约简算法来消除冗余,从而获得最优特征子集。在实际多维感知数据集上进行测试,证明该模型可筛选出与目标参量相关性高的特征,降低回归运算的时间,提高回归模型的拟合精度。  相似文献   

16.
特征选择方法综述   总被引:19,自引:0,他引:19       下载免费PDF全文
本文总结并提出了较为完备的特征提取定义。根据特征子集形成过程将特征选择分为穷举式、启发式和随机式三类;根据特征评价标准将特征选择分为距离测度、信息测度、相关性测度、一致性测度和分类器错误率五类。通过分析特征选择的影响因素,提出了选择特征、选择方法应该遵循的原则。  相似文献   

17.
对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数— 相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。  相似文献   

18.
基于遗传算法的特征选择方法   总被引:6,自引:0,他引:6  
特征提取广泛应用于模式识别、知识发现、机器学习等诸多领域,并受到了越来越多的关注犤1犦。对于一个给定的待分类模式,特征提取要求人们从大量的特征中选取一个最优特征子集,以代表被分类的模式。该文对特征提取这一组合优化及多目标优化问题提出了基于遗传算法的解决方法,把遗传算法作为识别或分类系统的“前端”,找出代表问题空间的最优特征子集,以大大降低分类系统的搜索空间,从而提高搜索效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号