首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 57 毫秒
1.
面向不平衡问题的集成特征选择   总被引:2,自引:1,他引:2  
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。  相似文献   

2.
随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF...  相似文献   

3.
基于类别加权和方差统计的特征选择方法   总被引:1,自引:0,他引:1  
为提高不均衡文本分类的准确率和稳定性, 提出了一种基于类别加权和方差统计的联合特征选择方法.首先, 基于类别文档数大小对特征选择的影响, 给出了一种类别加权策略以强化小类别的特征;其次, 在探究特征类别区分能力的基础上, 设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后, 将2种策略相融合, 实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效, 特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.  相似文献   

4.
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法.该方法通过建立同义词词典、确定扩展规则和调整“特征保持因子”等几个步骤,实现了对少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿.实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著.与此同时,分类器的总体分类性能也得到了一定程度的提升.  相似文献   

5.
文本分类中的特征选择方法   总被引:5,自引:0,他引:5  
文本分类是数据挖掘的一个重要的研究方向.用机器学习方法进行特征选择对文本分类起关键作用。结合的工作,本文从文本的特征表示、特征选择等方而加以阐述.综合了已有和最新的各种基于评估函数的特征选择的方法,评价了它们的优缺点和适用范围。  相似文献   

6.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

7.
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能.  相似文献   

8.
在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的不确定性.针对上述问题,文中提出基于邻域粗糙集的长尾分布数据在线流特征选择算法.借助邻域粗糙集模型,并考虑邻域内样本间的关系后,定义了自适应邻域关系,设计基于稀有类样本重要性的依赖度计算公式.同时,利用层次结构降低类别不平衡性,提出在线冗余度分析和在线重要度分析两种在线特征评价指标,用于选出具有高可分离性和强区分性的特征子集.实验结果表明所提算法优于其它先进算法.  相似文献   

9.
Web文本分类是Web文本挖掘的一个重要研究领域.Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理.本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势.  相似文献   

10.
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。  相似文献   

11.
一种基于文本分类的特征选择方法   总被引:1,自引:0,他引:1  
文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。  相似文献   

12.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

13.
搜索式无载体信息隐藏方法无需修改载体即可嵌入秘密信息,可有效维持秘密信息的不可感知特性,但算法性能极度依赖文本大数据集.基于此,提出一种基于声调特征映射的文本无载体信息隐藏方法.该方法通过声调特征编码获取文本的特征序列,利用特征匹配与指定匹配算法构建文本与秘密信息的映射关系,直接从文本集中检索符合映射关系的文本并发送,...  相似文献   

14.
基于中文文本分类的定义和向量空间模型,本文分析了正确分类文本的关键所在.通过对传统的特征选择方法的分析,提出了新的特征选择方法.通过支撑向量机对中等规模语料库的实验,验证了此方法的有效性.  相似文献   

15.
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法: 结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上 使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还 能提高聚类质量。  相似文献   

16.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号